西安电子科技大学硕士学位论文基于Lucene的Web搜索引擎实现姓名:姚林涛申请学位级别:硕士专业:软件工程指导教师:田玉敏;郭会侠20080101摘要随着信息技术不断发展、互联网信息不断丰富,搜索引擎的发展速度也越来越快,目前仅Google收录的网页就超过80亿
伴随着搜索引擎的飞速发展,相应的瓶颈问题也开始出现:索引数据库越来越大,需要的维护成本越来越高;索引数据源单一,通常只限于文本内容;索引缺乏通用性和灵活性等等
而Lucene具有开放性和易扩展性,对于解决搜索引擎目前的问题有很好的应用价值
本文通过研究设计并开发实现一个小型简单的基于Lucene的Web搜索引擎,来研究Lucene在搜索引擎领域的应用前景
主要工作包括:(1)分析了W,eb搜索引擎的组成结构和工作原理,在此基础上进行了基于Lucene的Web搜索引擎的整体结构设计,并将系统分为网页搜集子系统、索引检索子系统、查询结果排序子系统等三个模块
(2)针对各个模块的功能进行了设计开发,设计了相关信息的存储机制,并根据搜索引擎的工作原理实现了各模块之间的交互
(3)深入分析并实现了多线程网页搜集、运用Lucene实现索引和检索、搜索结果的页面优先度计算等等基于Lucene的Web搜索引擎的关键技术
关键词:搜索引擎Lueene全文检索页面优先度PageRankAbstractAstlleinformationtechnologyisbeingdevelopedconstantly,Interact·Sinformationisbeingenriched,thedevelopmentofthesearchengineisfaster,thewebpagethatGoogleincludesexceeds8billionatpresent.Followingthedevelopingoftllesearchen