基于Hadoop的Web用户识别与新闻智能推荐算法研究

下载本文档

阅读 134
下载 6
格式 doc
大小 19 KB
约6页
2025-09-03 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/6页

2/6页

3/6页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

文本预览下载提示常见问题

基于 Hadoop 的 Web 用户识别与新闻智能推举算法讨论摘要：为了解决大数据时代用户阅读时遇到的“信息过载”与“信息迷失”问题，提出了基于 Hadoop 平台的用户准确识别与新闻推举算法。首先基于 MAC 地址识别用户，通过对用户浏览轨迹的离线和在线挖掘，建立用户兴趣模型。然后对新闻关键词进行聚类，结合协同过滤和启发式方法，基于关键词对用户进行新闻的智能推举。实验结果表明，基于 MAC 地址的算法比基于 IP 地址的算法用户识别率提高了 30%. 关键词:云计算；新闻推举；Web 日志挖掘；Hadoop；MAC 地址 DOIDOI：10。11907/rjdk。161378 中图分类号：TP312 文献标识码：A 文章编号：1672-7800（2025)005—0027-03 0 引言根据 ZDNET《数据中心 2025：硬件重构与软件定义》[1］年度技术报告显示，2025 年中国产生的数据总量超过 0。8ZB，估计到 2025 年，产生的数据总量将是 2025 年的 10 倍。海量的 Web 信息让人们感觉到信息过载和信息迷失，如何快速精准地识别用户并为其推举感兴趣的内容成为了当今的讨论热点［2]。根据新闻阅读与设备使用情况的调查问卷[3］数据显示，95％的人都是在电脑、手机、平板等电子设备上猎取新闻资讯，而且 80%的人在阅读新闻时并未处于登录状态，即无法通过用户的登录信息给用户推举相应内容。面对海量的新闻资讯，文献［4］针对用户识别存在的问题提出了 IASR（IP，Agent，Session and Referrer）算法,通过引入会话（Session）来识别用户;文献［5]提出了基于用户浏览行为的建模，提高了同一个 IP 下用户的识别率;文献［6-8］提出了基于 URL 相似度的会话识别方法。但这些方法并不能改变 IP对于识别用户的限制，所以不能从本质上提高用户识别率。因此，利用Hadoop 大数据平台,对无登录信息的用户进行快速身份识别和新闻信息的个性化推举，相关讨论具有重要的现实意义和潜在的经济价值。 1 海量 Web 日志与用户识别 MAC 地址是网卡物理地址，由网络设备制造商生产时写在硬件内部，因此世界上任意一个拥有 48 位 MAC 地址的网卡都有唯一标识［9]，且MAC 地址与网络无关。通过在 Web 日志中加入 MAC 地址,可以实现用户的唯一性识别,增加用户识别的准确性. 用户识别是个性化新闻推举的基础和关键，详细有用的用户数据将决定新闻推举的效果。由于 Web 日志中包含了访问主机 IP、访问时间、访问页面、请求方式等信息,详细记录了用户的访问轨迹,生...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

基于Hadoop的Web用户识别与新闻智能推荐算法研究

基于 Hadoop 的 Web 用户识别与新闻智能推举算法讨论摘要：为了解决大数据时代用户阅读时遇到的“信息过载”与“信息迷失”问题，提出了基于 Hadoop 平台的用户准确识别与新闻推举算法

首先基于 MAC 地址识别用户，通过对用户浏览轨迹的离线和在线挖掘，建立用户兴趣模型

然后对新闻关键词进行聚类，结合协同过滤和启发式方法，基于关键词对用户进行新闻的智能推举

实验结果表明，基于 MAC 地址的算法比基于 IP 地址的算法用户识别率提高了 30%

关键词:云计算；新闻推举；Web 日志挖掘；Hadoop；MAC 地址 DOIDOI：10

11907/rjdk

161378 中图分类号：TP312 文献标识码：A 文章编号：1672-7800（2025)005—0027-03 0 引言根据 ZDNET《数据中心 2025：硬件重构与软件定义》[1］年度技术报告显示，2025 年中国产生的数据总量超过 0

8ZB，估计到 2025 年，产生的数据总量将是 2025 年的 10 倍

海量的 Web 信息让人们感觉到信息过载和信息迷失，如何快速精准地识别用户并为其推举感兴趣的内容成为了当今的讨论热点［2]

根据新闻阅读与设备使用情况的调查问卷[3］数据显示，95％的人都是在电脑、手机、平板等电子设备上猎取新闻资讯，而且 80%的人在阅读新闻时并未处于登录状态，即无法通过用户的登录信息给用户推举相应内容

面对海量的新闻资讯，文献［4］针对用户识别存在的问题提出了 IASR（IP，Agent，Session and Referrer）算法,通过引入会话（Session）来识别用户;文献［5]提出了基于用户浏览行为的建模，提高了同一个 IP 下用户的识别率;文献［6-8］提出了基于 URL 相似度的会话识别方法

但这些方法并不能改变 IP对于识别用户的限制，所以不能从本质上提高

一帆文传 + 关注: 实名认证
内容提供者

欢迎光临店铺，各类公文供您挑选。

收藏店铺进入空间

基于Hadoop的Web用户识别与新闻智能推荐算法研究

基于Hadoop的Web用户识别与新闻智能推荐算法研究

您可能关注的文档

相关文档

热门下载

相关标签