软件工程课程设计社交网络数据收集算法的设计组号第 21 组组长姓名:盖云东学号:130104010049组员姓名:任志成学号:130104010121组员姓名:马剑楠学号:130104010004组员姓名:陈海涛学号:130104010045摘要随着互联网的进展,人们正处于一个信息爆炸的时代
社交网络数据信息量大、主题性强,具有巨大的数据挖掘价值,是互联网大数据的重要组成部分
一些社交平台如 Twitter、新浪微博、人人网等,允许用户申请平台数据的采集权限,并提供了相应的 API 接口采集数据,通过注册社交平台、申请 API 授权、调用 API 方法等流程猎取社交信息数据
但社交平台采集权限的申请比较严格,申请成功后对于数据的采集也有限制
因此,本文采纳网络爬虫的方式,利用社交账户模拟登录社交平台,访问社交平台的网页信息,并在爬虫任务执行完毕后,及时返回任务执行结果
相比于过去的信息匮乏,面对现阶段海量的信息数据,对信息的筛选和过滤成为了衡量一个系统好坏的重要指标
本文运用了爬虫和协同过滤算法对网络社交数据进行收集
关键词:软件工程;社交网络;爬虫;协同过滤算法目录摘要 2 目录 2 课题讨论的目的 1 1
1 课题讨论背景 1 2 优先抓取策略 -—PageRank 1 2
1 PageRank 简介 2 2
2 PageRank 流程 2 3 爬虫 3 3
1 爬虫介绍 3 3
1 爬虫简介 3 3
2 工作流程 3 3
3 抓取策略介绍 4 3
2 工具介绍 5 3
1 Eclipse 5 3
2 Python 语言 5 3
3 BeautifulSoup 6 3
3 实现 6 3
4 运行结果 7 4 算法部分 7 4
1 猎取数据的三种途径 7 4
1 通过新浪微博模拟登录猎取数据 7 4