目录1绪论...........................................................................................................................21.1研究背景及意义...............................................................................................21.2国内外研究现状...............................................................................................21.3本文研究内容...................................................................................................32相关技术简介...........................................................................................................42.1网络爬虫定义...................................................................................................42.2R语言简介.......................................................................................................42.3Scrapy框架.......................................................................................................52.4数据挖掘技术介绍...........................................................................................52.4.1日志挖掘.................................................................................................52.4.2数据挖掘分析的过程.............................................................................62.5Heritrix简介.....................................................................................................73系统分析...................................................................................................................83.1系统可行性分析...............................................................................................83.2功能需求分析...................................................................................................83.3系统流程分析...................................................................................................93.4性能需求...........................................................................................................94系统设计.................................................................................................................114.1网络爬虫的模型分析..................................................................................114.2网络爬虫的搜索策略..................................................................................114.3网络爬虫的主题相关度判断......................................................................124.4网络爬虫设计.................................................................................................144.5功能实现.........................................................................................................155总结与展望.............................................................................................................21参考文献....................................................................................................................22致谢..........................................................................................................................231绪论1.1研究背景及意义随着网络的发展,越来越多的资源出现在人们面前,这时候人们就需要一种查询这些资源的方法,一种可以方便快捷获取自己想要的东西的方法。这时候搜索引擎这种搜索工具就出现了。网站拥有了较多内容后,首先考虑基于目录的内容分类,以解决信息快速定位的问题,随着内容量的进一步增加,很多内容在发表之后就很快被湮没,...