第一章绪论1
1背景与意义随着Internet的飞速发展,互联网信息呈指数增长
根据中国互联网络信息中心(CNNIC)于2017年8月4日在京发布第40次《中国互联网络发展状况统计报告》[1]数据显示:“截至2017年6月,中国网民规模达到7
51亿,占全球网民总数的五分之一
互联网普及率为54
3%;截至2017年6月,我国IPv4地址数量达到3
38亿个、IPv6地址数量达到21283块/32地址,二者总量均居世界第二;中国网站数量为506万个,半年增长4
”如此大量的网站中包含着不计其数的网页,网页是信息的载体,人们一般通过百度、谷歌等通用搜索引擎去从互联网上获取想要的信息
然而,利用通用搜索引擎搜索出的信息,往往比较宽泛
为了解决这种问题,满足特定用户的需求,垂直搜索引擎应运而生
垂直搜索引擎针对的是一个特定的行业,是通用搜索引擎的细分,其将某一领域的网页信息进行整合,处理后再以某种形式返回给用户
垂直搜索针引擎对某一领域,为特定用户或特定需求提供相关的信息和服务,相对于通用搜索引擎,其查询更加准确
垂直搜索引擎相较于通用搜索引擎来说,专注于某一领域或专业,所以显得更加专注、具体及深入
主题网络爬虫,又称聚焦爬虫是垂直搜索引擎的重要组成部分,所以对主题网络爬虫的研究具有重要的意义
主题网络爬虫是一个自动从互联网上抓取网页的程序,它根据预设的主题去访问互联网上与主题相关的链接,获取网页信息
通用网络爬虫从若干种子链接开始,先抓取种子链接的网页,然后从这些网页中抽取新的链接放入待抓取队列中,直到满足系统设定的抓取结束条件或者待抓取队列为空
相比之下,主题网络爬虫的抓取流程较为复杂,抓取的过程中需要根据主题相似度算法预测链接与主题的相关度来决定是否将链接放入待抓取队列中
另外,爬虫抓取到的网页会被系统存储,然后,进行分析、过滤,最后建立索引
对于主题网络爬虫来说,这