摘要随着互联网的迅速发展,Web的信息量越来越大
人们往往通过搜索引擎去从互联网上搜索想要的信息,比如:百度,谷歌,搜狗等
这类搜索引擎称之为通用搜索引擎,其为所有的用户提供用户想要的所有信息
随着互联网上的信息量越来越大,用户搜索出来的信息可能与自己想要的信息大相径庭
对于这种问题,就需要更加专业的,面向特定领域的搜索引擎来解决
主题网络爬虫是垂直搜索引擎的关键部分,本文主要是对主题网络爬虫中的关键技术进行研究
主要研究内容如下:(1)主题内容的抽取是网页主题识别的重要步骤,本文结合网页内容分布特征以及主题内容的相关特征,设计了一种网页主题内容抽取方法
(2)提出了一种基于实体链接的主题识别算法,去识别网页的主题
将基于知识库的实体链接方法运用于特征抽取,实验表明该方法提高了主题网页识别的准确率
(3)提出了一种基于Best-First算法的主题搜索策略
主题搜索策略是指导主题网络爬虫抓取网页的关键,本文采用基于Best-First算法的主题搜索策略
关键词:主题网络爬虫,实体链接,Best-First算法,主题搜索策略II主题网络爬虫关键技术研究第一章绪论1
1背景与意义随着Internet的飞速发展,互联网信息呈指数增长
根据中国互联网络信息中心(CNNIC)发布的第40次《中国互联网络发展状况统计报告》[1]数据显示:“截至2017年6月,中国网民规模达到7
51亿,占全球网民总数的五分之一
互联网普及率为54
3%;中国网站数量为506万个,半年增长4
”如此大量的网站中包含着不计其数的网页,网页是信息的载体,人们一般通过百度、谷歌等通用搜索引擎去从互联网上获取想要的信息
然而,利用通用搜索引擎搜索出的信息,往往比较宽泛
垂直搜索引擎针对的是一个特定的行业,是通用搜索引擎的细分,其将某一领域的网页信息进行整合,处理后再以某种形式返回给用户
垂直搜索针引擎对某