中文信息检索引擎中的若干技术吴栋滕育平(南开大学组合数学研究中心核心数学与组合数学教育部重点实验室,天津300071)摘要本文论述了在开发中文信息检索系统中所涉及到的两项关键技术,即中文分词技术和检索技术
对中文分词技术,本文介绍了一种改进的正向最大匹配切分算法,以及为消除歧义引入的校正策略,并在此基础上结合统计方法处理未登录词
针对检索技术,本文综述了几种最常用的检索模型的原理,并对每种模型的优缺点进行了简要分析
最后对给出的分词算法进行了测试,测试表明本文给出的分词算法准确度和效率能够满足实用的要求
关键词信息检索搜索引擎分词技术检索技术1引言随着社会的不断进步,特别是在互联网迅猛发展的今天,人们在不断地接触形形色色的信息,同时也要对这些信息进行过滤,从而提取出对自己真正有用的内容
为了达到这个目的,人们开发出了众多的检索引擎,有针对Web进行搜索的Goolge、百度等,也有针对各行业开发的专题检索系统
目前,国内的每个行业、领域都在飞速发展,这中间产生了大量的中文信息资源,为了能够及时准确的获取最新的信息,中文检索引擎是必然的产物
中文检索引擎与西文检索引擎在实现的机制和原理上大致雷同,但由于汉语本身的特点,必须引入对于中文语言的处理技术,而中文分词技术就是其中很关键的部分
2中文检索引擎的基本原理常见的中文检索引擎主要完成两方面的任务:1.信息的规范化
将搜集来的信息按照一定的方式进行组织管理,使之成为可以高效检索的信息库
2.信息的检索和表达
以索引好的信息库作为信息基础,利用信息库已被索引的特点,实施快速检索,同时根据用户的需求将检索结果进行输出
其中,信息的规范化包括分词和索引(以及资料的搜集和整理)、更新(维护)两部分;信息的检索包括搜索、结果输出两部分
整个信息处理和检索过程如图1所示:3中文分词技术3
1汉语的特点词是最小的、能独立活动的、有意义的语言成