分布式搜索引擎设计与实现VIP免费

下载本文档

阅读 58
下载 24
格式 pdf
大小 3.25 MB
约94页
2024-11-10 发布于河南
收藏
评论
点赞(0)
海报
举报

1/94页

2/94页

3/94页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

/94

文本预览下载提示常见问题

中国科学技术大学硕士学位论文分布式搜索引擎设计与实现姓名：李伟申请学位级别：硕士专业：模式识别与智能系统指导教师：朱明20060501摘要在网页如此繁多的今天，人们在互联网上查找各种信息，往往都需要借助互联网搜索引擎的帮助。本文就是要设计一个针对互联网搜索的大规模分布式搜索引擎。互联网搜索引擎系统一般由四个主要部分组成：爬虫子系统，存储子系统，索引子系统，门户子系统。首先爬虫子系统通过网页链接爬行互联网，将网页或者其他Web对象抓取下来，保存到存储子系统；索引子系统从存储子系统获取未索引的网页，计算索引数据，建立索引。门户提供一个用户交互界面，用户搜索互联网时，在门户上输入查询关键字，门户建立查询语句发送到索引子系统，查询关键字对应的网页，然后返回给用户。本文实现了互联网搜索引擎中的核心功能，完成了一个基本的面向大规模互联网的分布式搜索引擎平台。在分布式爬虫子系统中，多个爬虫应该避免重复爬行，本文按照URL的Hash值为每个爬虫分配一个URL空间，互不重叠，并通过调整爬虫爬行的URL空间来进行负载均衡。另外，本文实现的爬虫系统可以同时支持IPv4和IPv6网络。存储子系统由若干个存储组构成，每个存储组存储互不重叠的一个URL空间的Web对象，由主服务器发布这一存储策略。通过扩展存储组可以不断提高整个系统的存储容量。每个存储组又由若干个存储单元组成，它们存储完全相同的数据，即所有的数据都是多备份的，保证数据安全，并可以提高数据访问的并发能力。外部客户端访问存储子系统根据主服务器发布的存储策略直接访问，数据访问过程中，无需主服务器参与，主服务器不再成为频繁数据访问操作下的瓶颈。索引子系统分为两个部分，索引计算和索引服务。索引计算子系统从存储子系统下载待索引数据建立索引，并发送给索引服务子系统。为提高索引计算的可靠性，索引计算服务器与存储子系统的存储组采用多对多的关系，即多个索引计算服务器同时计算多个存储组上的待索引数据。存储组提供FTP服务，一次只允许一个索引计算服务器下载待数据包，下载完毕，将该数据包移动到待删除目录，从而避免了多个索引计算服务器同时下载计算相同的索引。索引服务子系统中各个索引服务器上都存储所有的索引数据，保证索引数据安全性。本文的各个子系统都采用基于策略的分布式架构，策略描述了系统内部服务分布情况，以及访问这些服务应该遵守的接口，由主服务器制定和发布系统服务访问策略。系统内部各个服务器都按照策略规定提供服务，成为一个独立的自治系统，相互之间直接协调工作。外部客户端访问系统提供的服务也是按照策略直接访问，不需要主服务器参与。这种服务访问方式极大地提高了系统扩展性，使主服务器不再成为系统瓶颈。同时也提高了系统性能和可靠性(主服务器宕机时，整个系统仍然可以在一定程度上继续提供服务)。目前搜索引擎厂商的Web存储系统解决方案都没有公开，只有Google提到它的Web存储建立在Google文件系统之上，也没有公开详细的Web存储设计。本文详细描述了所实现的搜索引擎中Web存储系统的解决方案。为了提高性能，简化数据访问模型，本文设计的Web存储系统不再建立在分布式文件系统之上，而是采用基于策略的分布式架构，由每个存储组自行存储、组织和维护Web对象，主服务器不维护Web对象元数据，也不参与具体的数据访问。外部客户端需要访问存储服务，只需要按照访问策略直接访问相应的存储组。搜索引擎中的所有服务器都是采用廉价的PC机，各种软硬件故障在所难免。为了在不可靠的软硬件系统上建立一个稳定可靠的搜索引擎，系统中的每个服务器都与其他一些服务器维持心跳，持续检测各种异常情况，及时处理错误。重要数据都有多个备份，并能通过简单的数据复制进行快速灾难恢复。总体上，本文实现的搜索引擎具有很好的可扩展性、高性能和可靠性，解决了分布式互联网搜索引擎中爬虫系统、存储系统和索引系统中的若干问题。关键字：搜索引擎网络爬虫Web存储索引分布式2AbstractToday,peoplefindallkindsofinformationontheIntemetusuallyrelyonthehelpoftheInternetsearchenginesWearedesigningalarge—scaledistributedt...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

分布式搜索引擎设计与实现

中国科学技术大学硕士学位论文分布式搜索引擎设计与实现姓名：李伟申请学位级别：硕士专业：模式识别与智能系统指导教师：朱明20060501摘要在网页如此繁多的今天，人们在互联网上查找各种信息，往往都需要借助互联网搜索引擎的帮助

本文就是要设计一个针对互联网搜索的大规模分布式搜索引擎

互联网搜索引擎系统一般由四个主要部分组成：爬虫子系统，存储子系统，索引子系统，门户子系统

首先爬虫子系统通过网页链接爬行互联网，将网页或者其他Web对象抓取下来，保存到存储子系统；索引子系统从存储子系统获取未索引的网页，计算索引数据，建立索引

门户提供一个用户交互界面，用户搜索互联网时，在门户上输入查询关键字，门户建立查询语句发送到索引子系统，查询关键字对应的网页，然后返回给用户

本文实现了互联网搜索引擎中的核心功能，完成了一个基本的面向大规模互联网的分布式搜索引擎平台

在分布式爬虫子系统中，多个爬虫应该避免重复爬行，本文按照URL的Hash值为每个爬虫分配一个URL空间，互不重叠，并通过调整爬虫爬行的URL空间来进行负载均衡

另外，本文实现的爬虫系统可以同时支持IPv4和IPv6网络

存储子系统由若干个存储组构成，每个存储组存储互不重叠的一个URL空间的Web对象，由主服务器发布这一存储策略

通过扩展存储组可以不断提高整个系统的存储容量

每个存储组又由若干个存储单元组成，它们存储完全相同的数据，即所有的数据都是多备份的，保证数据安全，并可以提高数据访问的并发能力

外部客户端访问存储子系统根据主服务器发布的存储策略直接访问，数据访问过程中，无需主服务器参与，主服务器不再成为频繁数据访问操作下的瓶颈

索引子系统分为两个部分，索引计算和索引服务

索引计算子系统从存储子系统下载待索引数据建立索引，并发送给索引服务子系统

为提高索引计算的可靠性，索引计算服务器与存储子系统的存储组采用多对多的关系，即多个索引

文泉书屋 + 关注: 实名认证
内容提供者

热爱教学事业，对互联网知识分享很感兴趣

收藏店铺进入空间

分布式搜索引擎设计与实现VIP免费

分布式搜索引擎设计与实现

您可能关注的文档

相关文档

热门下载

相关标签