下载后可任意编辑第 1 章 绪论 随着计算机技术、通信网、互联网的迅速进展和日益普及,Internet 上的信息量快速增长
从海量的信息块中快速检索出用户真正需要的信息正变得很困难,信息搜索应向着具有分布式处理能力方向进展,本系统利用 hadoop 分布式开源框架良好的扩充能力、较低的运作成本、较高的效率和稳定性来满足需求
现状: 缺陷和不足:(1)结果主题相关度不高
(2)搜素速度慢
引入 hadoop+nutch+solr 的优点:(1)hadoop 平台数据处理高效
hadoop 集群处理数据比起单机节约数倍的时间,数据量越大优势越明显,满足信息采集对数据处理的速度和质量要求
(2)hadoop 平台具有高扩展性
可以适当扩展集群数量来满足日益不断增加的数据量,而这并不会毁坏原集群的特性
(3)安全可靠性高
集群的数据冗余机制使得 hadoop 能从单点失效中恢复,即 Hadoop 能自动进行数据的多次备份,以确保数据不丢失,即使当某个服务器发生故障时,它也能重新部署计算任务
(4) Nutch 不仅提供抓取网页的功能,还提供了解析网页、建立链接数据库、对网页进行评分、建立 solr 索引等丰富的功能
(5)通过 Nutch 插件机制实现了系统的可扩展性、灵活性和可维护性,提高了开发效率
能够根据用户需求进行灵活定制抓取和解析,提高了系统使用性
(6)通过 solr 集群,采纳分布式索引在不同的机器上并行执行,实现检索服务器之间的信息交换
可以通过设定主题进行索引检索
讨论目标和内容本文的讨论目标是全面深化分析讨论分布式搜索引擎,进而优化分布式搜索引擎中的索引构建策略,内容包括:(1)深化讨论 hadoop 分布式平台,认真剖析 hadoop 中的分布式文件系统 HDFS 和 map/Reduce编程模型
(2)深化讨论 Nutch 架构 、相关技术与体系结构,着重讨