社交网络数据采集算法的设计

下载本文档

阅读 122
下载 7
格式 doc
大小 144 KB
约18页
2025-04-13 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/18页

2/18页

3/18页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

/18

文本预览下载提示常见问题

软件工程课程设计社交网络数据收集算法的设计组号第 21 组组长姓名：盖云东学号:130104010049组员姓名：任志成学号：130104010121组员姓名:马剑楠学号：130104010004组员姓名：陈海涛学号:130104010045摘要随着互联网的进展，人们正处于一个信息爆炸的时代。社交网络数据信息量大、主题性强，具有巨大的数据挖掘价值，是互联网大数据的重要组成部分。一些社交平台如 Twitter、新浪微博、人人网等,允许用户申请平台数据的采集权限，并提供了相应的 API 接口采集数据,通过注册社交平台、申请 API 授权、调用 API 方法等流程猎取社交信息数据。但社交平台采集权限的申请比较严格，申请成功后对于数据的采集也有限制。因此，本文采纳网络爬虫的方式，利用社交账户模拟登录社交平台，访问社交平台的网页信息,并在爬虫任务执行完毕后,及时返回任务执行结果。相比于过去的信息匮乏，面对现阶段海量的信息数据，对信息的筛选和过滤成为了衡量一个系统好坏的重要指标。本文运用了爬虫和协同过滤算法对网络社交数据进行收集。关键词：软件工程；社交网络；爬虫；协同过滤算法目录摘要 2 目录 2 课题讨论的目的 1 1.1 课题讨论背景 1 2 优先抓取策略 -—PageRank 1 2 。 1 PageRank 简介 2 2 。 2 PageRank 流程 2 3 爬虫 3 3.1 爬虫介绍 3 3.1.1 爬虫简介 3 3 。 1 。 2 工作流程 3 3 。 1 。 3 抓取策略介绍 4 3.2 工具介绍 5 3.2 。 1 Eclipse 5 3.2 。 2 Python 语言 5 3.2.3 BeautifulSoup 6 3 。 3 实现 6 3 。 4 运行结果 7 4 算法部分 7 4 。 1 猎取数据的三种途径 7 4.1.1 通过新浪微博模拟登录猎取数据 7 4 。 1.2 通过调用微博 API 接口猎取用户微博数据 8 4.2 基于用户的协同过滤算法 9 4.2 。 1 集体智慧和协同过滤 10 4.2.2 深化协同过滤核心 10 4.3 算法实现 12 结论 15 参考文献 15 课题讨论的目的1.1课题讨论背景互联网导致一种全新的人类社会组织和生存模式悄然走进我们,构建了一个超越地球空问之上的、巨大的群体——网络群体，21 世纪的人类社会正在逐渐出现出崭新的形态与特质，网络全球化时代的个人正在聚合为新的社会群体。随着社交网站的兴起，网络社交蓬勃进展，新的互联网热再次升温，有分析人士甚至说，网络社交将缔造人际交往的新模式。互联网的兴起打破了传统的社会交往方式，简单、快捷和无距离...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

社交网络数据采集算法的设计

软件工程课程设计社交网络数据收集算法的设计组号第 21 组组长姓名：盖云东学号:130104010049组员姓名：任志成学号：130104010121组员姓名:马剑楠学号：130104010004组员姓名：陈海涛学号:130104010045摘要随着互联网的进展，人们正处于一个信息爆炸的时代

社交网络数据信息量大、主题性强，具有巨大的数据挖掘价值，是互联网大数据的重要组成部分

一些社交平台如 Twitter、新浪微博、人人网等,允许用户申请平台数据的采集权限，并提供了相应的 API 接口采集数据,通过注册社交平台、申请 API 授权、调用 API 方法等流程猎取社交信息数据

但社交平台采集权限的申请比较严格，申请成功后对于数据的采集也有限制

因此，本文采纳网络爬虫的方式，利用社交账户模拟登录社交平台，访问社交平台的网页信息,并在爬虫任务执行完毕后,及时返回任务执行结果

相比于过去的信息匮乏，面对现阶段海量的信息数据，对信息的筛选和过滤成为了衡量一个系统好坏的重要指标

本文运用了爬虫和协同过滤算法对网络社交数据进行收集

关键词：软件工程；社交网络；爬虫；协同过滤算法目录摘要 2 目录 2 课题讨论的目的 1 1

1 课题讨论背景 1 2 优先抓取策略 -—PageRank 1 2

1 PageRank 简介 2 2

2 PageRank 流程 2 3 爬虫 3 3

1 爬虫介绍 3 3

1 爬虫简介 3 3

2 工作流程 3 3

3 抓取策略介绍 4 3

2 工具介绍 5 3

1 Eclipse 5 3

2 Python 语言 5 3

3 BeautifulSoup 6 3

3 实现 6 3

4 运行结果 7 4 算法部分 7 4

1 猎取数据的三种途径 7 4

1 通过新浪微博模拟登录猎取数据 7 4

办公文档专营 + 关注: 实名认证
内容提供者

大量办公文档，欢迎选择

收藏店铺进入空间

社交网络数据采集算法的设计

社交网络数据采集算法的设计

您可能关注的文档

相关文档

热门下载

相关标签