电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

主题网络爬虫关键技术研究分析 计算机专业VIP免费

主题网络爬虫关键技术研究分析  计算机专业_第1页
1/29
主题网络爬虫关键技术研究分析  计算机专业_第2页
2/29
主题网络爬虫关键技术研究分析  计算机专业_第3页
3/29
摘要随着互联网的迅速发展,Web的信息量越来越大。人们往往通过搜索引擎去从互联网上搜索想要的信息,比如:百度,谷歌,搜狗等。这类搜索引擎称之为通用搜索引擎,其为所有的用户提供用户想要的所有信息。随着互联网上的信息量越来越大,用户搜索出来的信息可能与自己想要的信息大相径庭。对于这种问题,就需要更加专业的,面向特定领域的搜索引擎来解决。主题网络爬虫是垂直搜索引擎的关键部分,本文主要是对主题网络爬虫中的关键技术进行研究。主要研究内容如下:(1)主题内容的抽取是网页主题识别的重要步骤,本文结合网页内容分布特征以及主题内容的相关特征,设计了一种网页主题内容抽取方法。(2)提出了一种基于实体链接的主题识别算法,去识别网页的主题。将基于知识库的实体链接方法运用于特征抽取,实验表明该方法提高了主题网页识别的准确率。(3)提出了一种基于Best-First算法的主题搜索策略。主题搜索策略是指导主题网络爬虫抓取网页的关键,本文采用基于Best-First算法的主题搜索策略。关键词:主题网络爬虫,实体链接,Best-First算法,主题搜索策略II主题网络爬虫关键技术研究第一章绪论1.1背景与意义随着Internet的飞速发展,互联网信息呈指数增长。根据中国互联网络信息中心(CNNIC)发布的第40次《中国互联网络发展状况统计报告》[1]数据显示:“截至2017年6月,中国网民规模达到7.51亿,占全球网民总数的五分之一。互联网普及率为54.3%;中国网站数量为506万个,半年增长4.8%。”如此大量的网站中包含着不计其数的网页,网页是信息的载体,人们一般通过百度、谷歌等通用搜索引擎去从互联网上获取想要的信息。然而,利用通用搜索引擎搜索出的信息,往往比较宽泛。垂直搜索引擎针对的是一个特定的行业,是通用搜索引擎的细分,其将某一领域的网页信息进行整合,处理后再以某种形式返回给用户。垂直搜索针引擎对某一领域,为特定用户或特定需求提供相关的信息和服务。垂直搜索引擎专注于某一领域或专业,所以显得更加专注、具体及深入。主题网络爬虫,又称聚焦爬虫是垂直搜索引擎的重要组成部分,所以对主题网络爬虫的研究具有重要的意义。主题网络爬虫是一个自动从互联网上抓取网页的程序它根据预设的主题去访问互联网上与主题相关的链接,获取网页信息。通用网络爬虫从若干种子链接开始,先抓取种子链接的网页,然后从这些网页中抽取新的链接放入待抓取队列中,直到满足系统设定的抓取结束条件或者待抓取队列为空。相比之下,主题网络爬虫的抓取流程较为复杂,在抓取的过程中,需要预测链接的主题相似度,然后放入根据主题相似度排序的待抓取队列中。1.2主题网络爬虫的国内外研究现状1999年,S.Chakrabani[2]第一次提出了聚焦爬虫这一概念,并设计并实现了FocusProiect系统[3]。该技术一经提出很快获得了广泛关注。接下来,从理论与实现的系统两个方面介绍主题网络爬虫的国内外研究现状。1.2.1主题识别算法及主题搜索策略P.DeBra[4]等人提出利用Fish-Search算法来作为爬虫的搜索策略,该算法假设主题相关页面逻辑上相接近来搜索主题相关的网页。Shark-Search爬虫[5]是在Fish-Search算法的的基础上进行了改进,Fish-Search算法是利用二值模型来评估主题相关性,而Shark-Search算法根据链接锚文本和网页主题相关内容计算出的相关性值为[0-1]内的值。该算法能提高主题爬虫的召回率。Best-First爬虫[6],由CHOJ等人在1998年提出,其主要思想是构建一个待抓取队列,按照评价策略对队列中的链接进行评价,挑选最好的链接进行抓取。1硕士学位论文LarryPage和SergeyBrin[7]提出了PageRank算法,运用于Google搜索引擎。leinberg博士首先提出HITS算法。Diligenti[8]利用“语境图”构造分类器来作为爬虫的搜索策略。主题页面较近的页面将会被优先抓取,认为此部分页面的主题相关度较高。陈军[13]提出了一种基于网页分块的的Shark-Search算法,该算法以块为基本单位计算链接的价值。熊忠阳[14]等人提出一种基于信息自增益的主题爬虫搜索策略。1.2.2主题爬虫系统根据理论研究,国内外专家设计并实现了很多高效的主题爬虫系统。(1)Scirus系统。Scirus系统[15]是由ElsevierS...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

主题网络爬虫关键技术研究分析 计算机专业

您可能关注的文档

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部