网络爬虫学习-Microsoft-Office--文档VIP免费

下载本文档

阅读 88
下载 25
格式 pdf
大小 65.45 KB
约8页
2024-11-15 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/8页

2/8页

3/8页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

文本预览下载提示常见问题

网络爬虫是什么网络爬虫的定义：网络蜘蛛（spider），网络机器人（robot），这是一个程序，其会自动的通过网络抓取互联网上的网页，网络爬虫是一个自动提取网页的程序,它为搜索引擎从Web上下载网页,是搜索引擎的重要组成部分。通用网络爬虫从一个或若干初始网页的URL（可以称这些URL为种子。）开始,获得初始网页上的URL列表;在抓取网页的过程中,不断从当前页面上抽取新的URL放入待爬行队列,直到满足系统的停止条件。主题网络爬虫就是根据一定的网页分析算法过滤与主题无关的链接,保留主题相关的链接并将其放入待抓取的URL队列中;然后根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。所有被网络爬虫抓取的网页将会被系统存储,进行一定的分析、过滤,并建立索引,对于主题网络爬虫来说,这一过程所得到的分析结果还可能对后续的抓取过程进行反馈和指导。聚焦爬虫主题爬虫[1]并不追求高的覆盖率，而是选择性地取主题相关页面，具有资源占用低、索引数据库更新方便、缓存页面精确的优点。但是其实现存在以下难点：如何对主题建模，如何判定页面与主题的相关性以及如何在一个爬虫系统中容纳不同的主题抓取等。主题网络爬虫根据一定的网页分析算法过滤与主题无关的链接，遵循一定的调度策略从队列中选择下一步要抓取的URL，同时系统存储的网页经过分析后的结果会反馈回来指导后续的抓取过程。聚焦网络爬虫根据既定的抓取目标,有选择地访问Web网页及相关链接,根据指定的规则抓取所需信息,其一般结构如图1所示.与通用网络爬虫不同的是,用户需要提供主题描述用于指定抓取目标,而且为了保证所获取的页面与主题相关,一方面需要根据主题描述对页面进行相关度评价并过滤掉无关页面;另一方面,还要根据主题描述对解析出的链接进行过滤,只有那些被评价为有用的链接才会被加入待处理URL队列.主题描述、页面过滤和链接过滤是聚焦网络爬虫的研究重点.聚焦网络爬虫系统结构目前主题描述主要采用关键词描述、基于概念或本体的语义描述等方法[5,6].这些方法都需要人为提供反映某一主题的关键词、概念、本体或字典.此外,还有很多主题描述方法是基于机器学习[7]的,通常需要提供一些样本页面用于学习和训练主题网络爬虫涉及到的几个问题：如何描述和定义感兴趣的主题爬行策略：如何判断网页是否与主题相关一个爬虫要做的事主要有以下这些1.从一个网页入口，分析链接，一层一层的遍历，或者从一组网页入口，或者从一个rss源列表开始爬rss；2.获取每个页面的源码保存在磁盘或者数据库里；3.遍历抓下来的网页进行处理，比如提取正文，消重等；4.根据用途把处理后的文本进行索引、分类、聚类等操作。网页爬虫的行为通常是四种策略组合的结果。?选择策略，决定所要下载的页面；?重新访问策略，决定什么时候检查页面的更新变化；?平衡礼貌策略，指出怎样避免站点超载；?并行策略，指出怎么协同达到分布式抓取的效果；这些过程中，大约有如下问题:如何获取网页源或者RSS源？如何进行爬行：即采用什么样的爬行策略爬行策略：广度优先：宽度优先：基于文字内容的评价搜索策略：基于内容评价的搜索策略[3,4],主要是根据主题(如关键词、主题相关文档)与链接文本的相似度来评价链接价值的高低,并以此决定其搜索策略:链接文本是指链接周围的说明文字和链接URL上的文字信息基于链接结构评价的搜索策略：通过对Web页面之间相互引用关系的分析来确定链接的重要性,进而决定链接访问顺序的方法.通常认为有较多入链或出链的页面具有较高的价值.PageRank和Hits是其中具有代表性的算法.一个页面的重要程度与他自身的质量有关，与按照链接数、访问数得出的受欢迎程度有关，甚至与他本身的网址（后来出现的把搜索放在一个顶级域名或者一个固定页面上的垂直搜索）有关。如果源页面很多，如何用多线程去有效的调度处理，而不会互相等待或者重复处理？如果现在有500万个页面要去爬，肯定要用多线程或者分布式多进程去处理了如何不采集重复的网页？抓下来的页面更快的保存？保存到分布式文件系统还是保存在数据库里？重新访问策略：如何有效的根据网页的更新频率来调整爬虫的采集时间间...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

网络爬虫学习-Microsoft-Office--文档

网络爬虫是什么网络爬虫的定义：网络蜘蛛（spider），网络机器人（robot），这是一个程序，其会自动的通过网络抓取互联网上的网页，网络爬虫是一个自动提取网页的程序,它为搜索引擎从Web上下载网页,是搜索引擎的重要组成部分

通用网络爬虫从一个或若干初始网页的URL（可以称这些URL为种子

）开始,获得初始网页上的URL列表;在抓取网页的过程中,不断从当前页面上抽取新的URL放入待爬行队列,直到满足系统的停止条件

主题网络爬虫就是根据一定的网页分析算法过滤与主题无关的链接,保留主题相关的链接并将其放入待抓取的URL队列中;然后根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止

所有被网络爬虫抓取的网页将会被系统存储,进行一定的分析、过滤,并建立索引,对于主题网络爬虫来说,这一过程所得到的分析结果还可能对后续的抓取过程进行反馈和指导

聚焦爬虫主题爬虫[1]并不追求高的覆盖率，而是选择性地取主题相关页面，具有资源占用低、索引数据库更新方便、缓存页面精确的优点

但是其实现存在以下难点：如何对主题建模，如何判定页面与主题的相关性以及如何在一个爬虫系统中容纳不同的主题抓取等

主题网络爬虫根据一定的网页分析算法过滤与主题无关的链接，遵循一定的调度策略从队列中选择下一步要抓取的URL，同时系统存储的网页经过分析后的结果会反馈回来指导后续的抓取过程

聚焦网络爬虫根据既定的抓取目标,有选择地访问Web网页及相关链接,根据指定的规则抓取所需信息,其一般结构如图1所示

与通用网络爬虫不同的是,用户需要提供主题描述用于指定抓取目标,而且为了保证所获取的页面与主题相关,一方面需要根据主题描述对页面进行相关度评价并过滤掉无关页面;另一方面,还要根据主题描述对解析出的链接进行过滤,只有那些被评价为有用的链接才会被加入待处理URL队列

主题描述、页面过滤和

爱的疯狂 + 关注: 实名认证
内容提供者

该用户很懒，什么也没介绍

收藏店铺进入空间

网络爬虫学习-Microsoft-Office--文档VIP免费

网络爬虫学习-Microsoft-Office--文档

您可能关注的文档

相关文档

热门下载

相关标签