电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

基于Lucene的企业级搜索引擎的设计与实现VIP免费

基于Lucene的企业级搜索引擎的设计与实现_第1页
1/4
基于Lucene的企业级搜索引擎的设计与实现_第2页
2/4
基于Lucene的企业级搜索引擎的设计与实现_第3页
3/4
应用实践基于Lucene的企业级搜索引擎的设计与实现陈艳春(石家庄铁道学院经济管理学院石家庄050043)李双平(北京易维博科科技有限公司北京100010)【摘要】针对企业文档信息资源丰富而又缺乏有效搜索工具的问题,提出构建企业级搜索引擎。首先分析企业级搜索引擎应具有的功能和总体架构,在实现中,对Lucene索引器进行深入研究;在抓取器的体系设计中,采用插件设计思想,来对不同的文档类型解析、抽取;在任务调度方面,实现一套多任务并行的调度机制;在用户接口设计上,采用Yui-ext组件和DWR远程对象调用框架,实现Web方式下的异步通信,提升用户体验。【关键词】搜索引擎Lucene插件抓取器【分类号】TP393DesignandImplementationofEnterpriseSearchEngineBasedonLuceneChenYanchun(Economic&ManagementInstitute,ShijiazhuangRailwayInstitute,Shijiazhuang050043,China)LiShuangping(EwaybokeCorporationLimited,Beijing100010,China)【Abstract】Theenterprise-levelsearchengineisproposedtosolvetheproblemthatenterprisehaveabundantdocumentinformationresourcesbutlackofeffectivesearchtools.Thefunctionandtheoverallframeworkoftheenter2prise-levelsearchengineareanalyzedfirstly.Luceneindexerisstudiedindepthduringimplementationsecondly.Thentheplug-inunitisusedtocarryouttheanalysisandextractionofdifferenttypesofdocumentsiindesign.Asetofpar2allelmulti-taskschedulingmechanismisestablishedinthetaskscheduling.Whentheuserinterfaceisdesigned,Yui-extcomponentsandDWRremoteobjectinvocationframeworkisappliedtoimplementasynchronouscommunicationbytheWeb,whichcanpromotetheusers’experience.【Keywords】SearchengineLucenePlug-inCrawler收稿日期:2007-07-06收修改稿日期:2007-07-191研究背景与内容1.1研究背景目前,企业内部存在很多业务数据库和大量的文档,这些资源散落在各个应用系统中和服务器上,很多资源没有得到有效的整理和利用,一方面,需要获取资源的人员没有办法搜寻到必要的文件;另一方面,则是大量的资源无法被利用,导致工作效率低下。因此,在企业内部网建立搜索引擎已成为当务之急,也是提升资源利用水平的关键手段[1]。1.2研究内容在研究企业搜索引擎的背景和现状的基础上,提出了企业搜索引擎应具有的总体架构,并结合国家地震局的项目工程以Myeclipse为开发工具对系统进行实现。·36·《现代图书情报技术》2007年第8期应用实践总第154期该系统分为抓取器、分词器、索引器、搜索器、用户接口5部分,在抓取器部分深入研究了不同数据对象的插件体系结构;在索引器、搜索器部分深入研究了Lucene;在分词方面改进了基于词典的最大长度匹配分词算法;在用户接口部分采用了面向对象方式的三层结构对数据源管理、任务调度、插件管理、词库管理、统计管理、日志管理以及用户搜索等模块进行实现。2技术路线2.1总体架构企业搜索引擎可以针对企业内部多种数据源及外部行业网站进行综合搜索,便于用户检索行业信息并协助其它信息系统的应用。此搜索引擎系统的总体架构如图1所示:图1企业级搜索引擎的总体架构图1中,对于不同数据源的数据采用自动采集引擎,将数据信息采集到本地机器,并通过格式转化、消重处理,将处理后的信息存入索引库内。2.2系统设计框架本系统采取三层结构,即表示层、业务层、持久层[2],如图2所示。表示层包括CSS样式表、Div、Yui-ext组件包、DWR(Di2rectWebRemoting)中间件。在页面的显示层上采用了先进的Ajax技术实现了Web状态下的异步通信,利用了开源的Yui-ext界面包,丰富了页面的展现形式,使页面具有了各种菜单,弹出窗口等丰富效果。利用DWR与Yui-ext相结合,DWR与系统的表示层接口进行通信,传递请求和响应。DWR将得到的响应数据赋值给Yui-ext进行显示。业务层主要完成对数据的相应的业务处理,包括查询、修改、删除、插入数据库,控制程序运行的全局变量,提供数据库操作储存过程的数据访问对象(DAO)。持久层采用了Hibernate中间件,实现了ORM映射,即实现了对象与关系数据库之间的映射,从而在使用面向对象的编程语言Java中依然可以用对象的方式来...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

基于Lucene的企业级搜索引擎的设计与实现

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部