第1章绪论随着计算机技术、通信网、互联网的迅速发展和日益普及,Internet上的信息量快速增长
从海量的信息块中快速检索出用户真正需要的信息正变得很困难,信息搜索应向着具有分布式处理能力方向发展,本系统利用hadoop分布式开源框架良好的扩充能力、较低的运作成本、较高的效率和稳定性来满足需求
现状:缺陷和不足:(1)结果主题相关度不高
(2)搜素速度慢
引入hadoop+nutch+solr的优点:(1)hadoop平台数据处理高效
hadoop集群处理数据比起单机节省数倍的时间,数据量越大优势越明显,满足信息采集对数据处理的速度和质量要求
(2)hadoop平台具有高扩展性
可以适当扩展集群数量来满足日益不断增加的数据量,而这并不会毁坏原集群的特性
(3)安全可靠性高
集群的数据冗余机制使得hadoop能从单点失效中恢复,即Hadoop能自动进行数据的多次备份,以确保数据不丢失,即使当某个服务器发生故障时,它也能重新部署计算任务
(4)Nutch不仅提供抓取网页的功能,还提供了解析网页、建立链接数据库、对网页进行评分、建立solr索引等丰富的功能
(5)通过Nutch插件机制实现了系统的可扩展性、灵活性和可维护性,提高了开发效率
能够根据用户需求进行灵活定制抓取和解析,提高了系统使用性
(6)通过solr集群,采用分布式索引在不同的机器上并行执行,实现检索服务器之间的信息交换
可以通过设定主题进行索引检索
研究目标和内容本文的研究目标是全面深入分析研究分布式搜索引擎,进而优化分布式搜索引擎中的索引构建策略,内容包括:(1)深入研究hadoop分布式平台,仔细剖析hadoop中的分布式文件系统HDFS和map/Reduce编程模型
(2)深入研究Nutch架构、相关技术与体系结构,着重研究分析Nutch插件系统的内部结构和流程;对protocol-httpclient插件