基于 Hadoop 的 Web 用户识别与新闻智能推举算法讨论 摘要:为了解决大数据时代用户阅读时遇到的“信息过载”与“信息迷失”问题,提出了基于 Hadoop 平台的用户准确识别与新闻推举算法
首先基于 MAC 地址识别用户,通过对用户浏览轨迹的离线和在线挖掘,建立用户兴趣模型
然后对新闻关键词进行聚类,结合协同过滤和启发式方法,基于关键词对用户进行新闻的智能推举
实验结果表明,基于 MAC 地址的算法比基于 IP 地址的算法用户识别率提高了 30%
关键词:云计算;新闻推举;Web 日志挖掘;Hadoop;MAC 地址 DOIDOI:10
11907/rjdk
161378 中图分类号:TP312 文献标识码:A 文章编号:1672-7800(2025)005—0027-03 0 引言 根据 ZDNET《数据中心 2025:硬件重构与软件定义》[1]年度技术报告显示,2025 年中国产生的数据总量超过 0
8ZB,估计到 2025 年,产生的数据总量将是 2025 年的 10 倍
海量的 Web 信息让人们感觉到信息过载和信息迷失,如何快速精准地识别用户并为其推举感兴趣的内容成为了当今的讨论热点[2]
根据新闻阅读与设备使用情况的调查问卷[3]数据显示,95%的人都是在电脑、手机、平板等电子设备上猎取新闻资讯,而且 80%的人在阅读新闻时并未处于登录状态,即无法通过用户的登录信息给用户推举相应内容
面对海量的新闻资讯,文献[4]针对用户识别存在的问题提出了 IASR(IP,Agent,Session and Referrer)算法,通过引入会话(Session)来识别用户;文献[5]提出了基于用户浏览行为的建模,提高了同一个 IP 下用户的识别率;文献[6-8]提出了基于 URL 相似度的会话识别方法
但这些方法并不能改变 IP对于识别用户的限制,所以不能从本质上提高