北京理工大学珠海学院 2020 届本科生毕业设计基于增量式爬虫的搜索引擎系统的设计与实现基于增量式爬虫的搜索引擎系统的设计与实现摘 要随着社会的不断发展,信息增长的也越来越快,大量的数据涌现在我们面前,对于这些数据,我们对信息的查找和提取也会更加困难
如何更快速、更精准的找到我们所需要的信息,获取到有用的信息成为了很重要的一个技术
与传统的搜索引擎对比,本次开发的搜索引擎具有针对性,更新频率快,可以实时的对数据进行爬取,使用户每次获取到的数据都是最新的
本次课题在 Windows 平台下基于 Python 中的 Scrapy 框架对网络数据进行爬取,将获取到的数据进行本地保存以及 Redis 的分布式保存
通过当下最流行的搜索引擎elasticsearch 进行索引与数据进行连接,然后通过 Django 框架快速搭建搜索网站,讲解如何完成 Django 与 elasticsearch 的搜索查询交互,最后通过 Scrapyd 完成对Scrapy 的线上部署
使用户可以针对性的对信息进行搜索与查询
通过一系列的实验验证,获取到的数据都很好的存储在了本地以及 Redis,证明了增量式爬虫在传统搜索引擎上的优点以及优势
关键词:Scrapy、搜索引擎、增量式、Django 框架、爬虫北京理工大学珠海学院 2020 届本科生毕业设计Design and Implementation of Search Engine System Based on Incremental CrawlerABSTRACTWith the continuous development of society, information is growing faster and faster, and a large amount of data appears in front of us
For th