··2009年第2期基于Lucene搜索引擎的设计与实现严良达(东南大学计算机科学与工程系,南京210000)摘要:Lucene是一个强大的全文索引引擎工具包,应用它可以快速地开发一个搜索引擎
介绍了基于英特网的中文搜索引擎的系统结构,Lucene的索引和搜索,并且设计实现了一个自己的搜索引擎———易搜中文搜索引擎
结果表明,基于Lucene的搜索引擎在索引和查找上的效率很高
关键词:Web;搜索引擎;Lucene中图分类号:TP393.4文献标识码:A文章编号:1671-2153(2009)02-0057-04收稿日期:2008-10-14作者简介:严良达(1980-),男,浙江宁波人,浙江工商职业技术学院助教,在职硕士研究生,从事网络和软件技术方面研究
0引言Lucene[1-2]是一个用Java写的全文检索引擎工具包,可以方便地嵌入到各种应用中实现针对应用的全文索引/检索功能,用户可以基于它开发出各种全文搜索的应用[3-4]
它是一个全文检索引擎的架构,提供了完整的查询引擎、索引引擎及部分文本分析引擎
作为一个开放源代码项目,Lucene从问世之后,引发了开放源代码社群的巨大反响
本文在研究分析Lucene的系统结构、运作机制的基础上,设计并实现了一个基于Lucene的搜索引擎———易搜中文搜索引擎
1搜索引擎的结构搜索引擎是根据用户的查询请求,按照一定算法从索引数据中查找信息返回给用户
为了保证用户查找信息的精度和新鲜度,搜索引擎需要建立并维护一个庞大的索引数据库
一般的搜索引擎由网络机器人程序、索引与搜索程序、索引数据库等部分组成
系统结构如图1所示
图1系统结构WWW文档网络机器人程序网络机器人程序建立Lucene索引Lucene索引数据库从数据库中搜索信息Tomcat服务器WWW浏览器WWW浏览器JSP宁波职业技术学院学报JournalofNingboPoly