电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

LuceneSolr简介VIP免费

LuceneSolr简介_第1页
1/8
LuceneSolr简介_第2页
2/8
LuceneSolr简介_第3页
3/8
Why Lucene/Solr 1 / 8 Why Lucene/Solr James Tang(james@fwso.cn) 1 . 简介 搜索引擎已经为几乎所有人所熟知,像Google, 百度这样的公共搜索引擎几乎成了日常互联网消费品。但搜索引擎背后的技术很少有人关心,而搜索引擎技术也并不像使用Google 那样简单直接,在Google 首页的输入框中输入关键字之后,需要成千上万的服务器经过多道工序才能返回我们需要的结果。虽然我们在此并不打算讨论Google 这样的复杂的系统,但搜索引擎的工作基本原理有必要在此讨论一下,以为下面的讨论提供一点基础。 搜索引擎所涉及到的技术包括数据结构、数据分析、数据处理、数据存储及搜索等,这些技术统称为数据检索(Information retrieval, IR)[1]。搜索引擎的种类众多,用途各异,但我们这里专注于 Web 搜索引擎。一个完整的Web 搜索引擎由多个部分组成,如图一所示: 图一 搜索引擎基本架构 图一中红色部分是本文讨论的重点,也是 Lucene/Solr 的核心,浅蓝色部分为应用需要考虑的部分。 在构建文档阶段,需要考虑的主要技术有分词(Tokenizing)、停用词(Stopping word)、词干分析(Stemming)等,这些技术要素也是我们首要考虑的因素。除此以外,还有链接抽取及分析、语义分析、信息分类等技术是其它公共搜索引擎需要重点考虑的问题。 Why Lucene/Solr 2 / 8 在索引建立阶段,主要技术有文档统计、权重、转换(Inversion)等。 在查询处理阶段,需要考虑查询结语评级(Ranking),性能评估等。 1.1. Lucene Lucene[2]是一个基于 Java 开发的免费、开源、高性能、可扩展的 IR 程序库,并且是目前应用最为广泛的 IR 程序库。很多人可能误认为 Lucene 是一个可以马上使用的搜索程序,而事实上 Lucene 仅仅是提供了简单而又强大的索引与搜索功能的搜索组件。Lucene 并不关心数据源、数据格式、甚至数据的语言,Lucene更不会关心搜索的界面会是怎样,这些工作都是由基于 Lucene 的程序来完成,因此 Lucene 使用于几乎所有以文本内容为主的数据检索功能,全球成千上万、类型各异、数据规模从少量到海量的应用与网站的成功案例[3],足以证实这一点。 1.2. Solr Solr[4]是基于 Lucene 的功能较为完善的企业级搜索服务器。前面提到 Lucene 主要实现索引和查询的核心功能及 API,但并不是一个完整的产品,而 Solr 实现了一些常用扩展并提供基于 HTTP 的 Web 服务,并且提供灵活的 Schema 配...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

LuceneSolr简介

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部