第1页共24页涵盖率(Recall)精确度(Precision)字符串词合成词概念编号:时间:2021年x月x日书山有路勤为径,学海无涯苦作舟页码:第1页共24页二索引的建立1、目的、标准在大量的文档集中(通常情况下大约为100,000个文档以上),为了提高检索性能和速度,需要找到文档中比较重要的内容并为这些内容创建内部表示,这些表示形式被称为索引
为了找到这些内容,必须进行语义分析来确定哪些是某一文档中的概念
对于IR来讲,这种分析是非常复杂的也是很难进行的
目前存在的技术,大多限制在某一特别领域
建立索引的目标是找出主要内容,创建内部表示
表示法的选择应考虑下面三个准则:-精确表示语义-涵盖所有内容-易于计算机处理实际上,人们更加倾向于研究概念的表示形式
概念表示形式可以是字、词、词组等,概念表示形式与精确度关系如图2-1所示
选用词作为概念的表示形式的想法是很自然的
事实上,词是最容易识别的语言单位,并且,它们也能充分地表达语义
在现有的系统中,它是最常用的方法
但是,单词经常不能给出专一的描述
例如,“专家系统”,被表示为“专家”和“系统”,失去了一定的精确性
因此,研究者们提出了新的方法,建议将单词组织起来形成合成词,文献可以由词和短语联合来描述
研究表明使用中文分词,按词索引结合二元组(bi-gram)索引是检索效率和效果较优的索引综合考虑方式,通常通过自动分词来选择索引词
在文档索引过程中,先通过中文自动分词程序的处理,把文档正文分割成为独立的分词单位,然后在这些分词单位基础上选择索引词
分词单位是指具有确定语义或语法功能的基本单位,通常被直接选作索引词[7]
图2-1概念表示形式与精确度关系文档集合通常由文档逻辑视图来表示,可以是一组索引词或关键词
既可以自动提取,也可以是由人主观指定
索引词的选取过程见图2-2、2-3所示
首先,对文本信息进行预处理,预处