电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

Oracle的全文检索技术

Oracle的全文检索技术_第1页
1/9
Oracle的全文检索技术_第2页
2/9
Oracle的全文检索技术_第3页
3/9
Oracle 的全文检索技术Oracle 一直致力于全文检索技术的讨论,当 Oracle9i Rlease2 公布之时,Oracle 数据库的全文检索技术差不多专门完美,Oracle Text 使 Oracle9i具备了强大的文本检索能力和智能化的文本治理能力。Oracle Text 是Oracle9i 采纳的新名称,在 Oracle8/8i 中它被称作 Oracle interMedia Text。使用 Oracle Text,能够方便而有效地利用标准的 SQL 工具来构建基于文本的新的开发工具或对现有应用程序进行扩展。应用程序开发人员能够在任何使用文本的 Oracle 数据库应用程序中充分利用 Oracle Text 搜索,应用范畴能够是现有应用程序中可搜索的注释字段,也但是实现涉及多种文档格式和复杂搜索标准的大型文档治理系统。Oracle Text 支持 Oracle 数据库所支持的大多数语言的差不多全文搜索功能。尽管大多数大型数据库都支持全文检索,但 Oracle 在这方面无疑是最杰出的。Oracle 能搜索多种格式的文档,如 Word,Execl,PowerPoint,Html,PDF等等。但在使用中也发觉有遗憾的地点,Oracle Text 不管使用何种过滤器(INSO_FILTER 或 NULL_FILTER)及何种词法分析器(BASIC_LEXER, CHINESE_VGRAM_LEXER 依旧 CHINESE_LEXER)都不能检索出中文内容的文本文档(TXT,RTF)。1 Oracle Text 的体系架构下图是 Oracle Text 的体系架构:图 1 Oracle Text 的体系架构Oracle Text 索引文档时所使用的要紧逻辑步骤如下: (1)数据储备逻辑搜索表的所有行,并读取列中的数据。通常,这只是列数据,但有些数据储备使用列数据作为文档数据的指针。例如,URL_DATASTORE 将列数据作为 URL 使用。假如对本地文件进行检索,只要指定 DATASTORE 中 FILE_DATASTORE 参数为文件的路径即可。 (2)过滤器提取文档数据并将其转换为文本表示方式。储备二进制文档 (如 Word 或 Acrobat 文件) 时需要如此做。过滤器的输出不必是纯文本格式 -- 它能够是 XML 或 HTML 之类的文本格式。 (3)分段器提取过滤器的输出信息,并将其转换为纯文本。包括 XML 和 HTML 在内的不同文本格式有不同的分段器。转换为纯文本涉及检测重要文档段标记、移去不可见的信息和文本重新格式化。 (4)词法分析器提取分段器中的纯文本,并将其拆分为不连续的标记。既存在空白字符分隔语言使用的词法分析器,也存在分段复杂的亚洲语言使用的专门词法分析器。 (5)索引引擎提取词法分析器中的所有标记、文...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

Oracle的全文检索技术

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部