电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

网络爬虫学习-Microsoft-Office--文档

网络爬虫学习-Microsoft-Office--文档_第1页
1/8
网络爬虫学习-Microsoft-Office--文档_第2页
2/8
网络爬虫学习-Microsoft-Office--文档_第3页
3/8
网络爬虫是什么网络爬虫的定义:网络蜘蛛( spider ),网络机器人( robot ),这是一个程序,其会自动的通过网络抓取互联网上的网页,网络爬虫是一个自动提取网页的程序, 它为搜索引擎从 Web 上下载网页 , 是搜索引擎的重要组成部分。 通用网络爬虫从一个或若干初始网页的 URL (可以称这些 URL为种子。)开始 , 获得初始网页上的URL 列表; 在抓取网页的过程中 , 不断从当前页面上抽取新的URL 放入待爬行队列 , 直到满足系统的停止条件。主题网络爬虫就是根据一定的网页分析算法过滤与主题无关的链接, 保留主题相关的链接并将其放入待抓取的URL 队列中 ; 然后根据一定的搜索策略从队列中选择下一步要抓取的网页URL, 并重复上述过程 , 直到达到系统的某一条件时停止。 所有被网络爬虫抓取的网页将会被系统存储 , 进行一定的分析、 过滤, 并建立索引 , 对于主题网络爬虫来说 , 这一过程所得到的分析结果还可能对后续的抓取过程进行反馈和指导。聚焦爬虫主题爬虫 [1]并不追求高的覆盖率,而是选择性地取主题相关页面,具有资源占用低、 索引数据库更新方便、缓存页面精确的优点。但是其实现存在以下难点:如何对主题建模,如何判定页面与主题的相关性以及如何在一个爬虫系统中容纳不同的主题抓取等。主题网络爬虫根据一定的网页分析算法过滤与主题无关的链接,遵循一定的调度策略从队列中选择下一步要抓取的 URL ,同时系统存储的网页经过分析后的结果会反馈回来指导后续的抓取过程。聚焦网络爬虫根据既定的抓取目标, 有选择地访问 Web 网页及相关链接, 根据指定的规则抓取所需信息 , 其一般结构如图1 所示 . 与通用网络爬虫不同的是, 用户需要提供主题描述用于指定抓取目标, 而且为了保证所获取的页面与主题相关, 一方面需要根据主题描述对页面进行相关度评价并过滤掉无关页面; 另一方面 , 还要根据主题描述对解析出的链接进行过滤,只有那些被评价为有用的链接才会被加入待处理URL 队列 . 主题描述、页面过滤和链接过滤是聚焦网络爬虫的研究重点. 聚焦网络爬虫系统结构目前主题描述主要采用关键词描述、基于概念或本体的语义描述等方法[ 5 ,6 ] . 这些方法都需要人为提供反映某一主题的关键词、概念、 本体或字典 . 此外 ,还有很多主题描述方法是基于机器学习[7 ] 的,通常需要提供一些样本页面用于学习和训练主题网络爬虫涉及到的几个问题:如何描述和定义感兴趣的主题爬...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

网络爬虫学习-Microsoft-Office--文档

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部