电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

基于Hadoop分布式爬虫设计综述

基于Hadoop分布式爬虫设计综述_第1页
1/9
基于Hadoop分布式爬虫设计综述_第2页
2/9
基于Hadoop分布式爬虫设计综述_第3页
3/9
下载后可任意编辑基于 Hadoop 分布式爬虫设计综述摘要:由于 Internet 规模不断扩大,包罗万象的信息资源被连接在一起,形成了一个宽阔宏大的信息空间"在这个空间中,存在着海量的信息,如何快速高效和安全地让网络用户在如此浩瀚的信息海洋之中找到并猎取自己所需的资源,是当前互联网进展的最大挑战之一。如今,云计算已成为当前的重要趋势之一。本文主要阐述在 Hadoop 分布式文件系统 HDFS 以及分布式计算框架 MapReduce 的基础上开发的分布式搜索引擎的爬虫设计相关技术、原理、流程图。关键词:云计算 分布式爬虫 Hadoop 搜索引擎1 引言随着搜索引擎的进展,搜索引擎所采纳的技术也随之变得丰富和多样化,能够适应不同搜索用户以及不同搜索目的的需要。目前,搜索引擎的性能指标主要有三个:首先考虑的是规模的大小,只有规模达到一定的数量级,用户搜索结果的符合度才能够达到满足不同用户的需求程度;其次是性能,搜索引擎的网络蜘蛛必须在一个较短的时间内完成对目标网络的信息搜索,同时,能够在用户可容忍的时间段内,完成搜索结果的反馈;最后是搜索的质量,能够去掉信息重复的网页,对一些无用信息进行过滤,能够准确返回用户想要的结果。如何从庞大的资料库中找到正确的资料,被公认为是下一代搜索技术的竞争要点"要对海量的信息进行检索,单单依靠单台计算机的处理能力远远不够,即使硬件的进展速度很快,但是根本赶不上信息的增长速度。而若采纳集群计算机实现,虽然可以解决处理速度问题,但由于从网络的整体上看,该集群仍是一个结点,会严重受制于网络带宽,因此,需要采纳多台计算机进行分布式协同处理"。分布式搜索引擎是通过网络把大范围的分布、异构数据集联合起来,形成一个逻辑整体,为用户提供分布式的信息检索服务。同传统搜索引擎相比,分布式搜索引擎有以下优点:1)各检索服务器之间协同工作,每个服务器只搜索自身自治区域内的信息资源,彼此之间只传递搜索结果信息,加快了检索速度,减轻网络及各站点的负担;2)与网络资源本身的分布式特性相适应,增加搜索服务器方便,有良好的可扩展性;3)索引信息化分到各个数据库中,使得各索引数据库规模小,易于管理,缩短查询响应时间。当今,大型网站的用户多,参加度广。因此,如何有效地为如此巨大的用户群体服务,让他们参加时能够享受方便、快捷的服务,成为这些网站不得不解决的一个问题。而与此同时,凭借 Google 文件系统搭建起来 Google 服务器群,为Google 提供强大的搜索速度与处理能力。于是,如何...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

基于Hadoop分布式爬虫设计综述

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部