基于概念间边权重的概念相似性计算方法文章编号:1001-9081(2012)01-0202-04doi:10.3724/sp.j.1087.2012.00202摘要:介绍了传统的基于距离的相似度计算方法,针对其在距离计算中包含语义信息不充足的现状,提出了一种改进的使用wordnet的基于概念之间边的权重的相似性度量方法。该方法综合考虑了概念在词库中所处层次的深度和密度,即概念的语义丰富程度,设计了一种通用的概念语义相似性计算方法,该方法简化了传统语义相似性算法,并解决了语义相似性计算领域的相关问题。实验结果表明,所提方法在rubenstein数据集上与人工判断有着0.9109的相关性,与其他经典的相似性计算方法相比有着更高的准确性。关键词:概念相似度计算;wordnet;边权重;语义信息中图分类号:tp393.08文献标志码:aabstract:thetraditionaldistance-basedsimilaritycalculationmethodwasdescribed.concerningthatthemethodofdistancecalculationdoesnotcontainsufficientsemanticinformation,thispaperproposedanimprovedmethodwhichusedwordnetandedgeweightinginformationbetweentheconceptstomeasurethesimilarity.itconsideredthelevelofdepthanddensityofconceptsincorpus,i.e.thesemanticrichnessofconcept.usingthismethod,theauthorscansolvethesemanticsimilaritycalculationissuesandmakethecalculationofsimilarityamongconceptseasy.theexperimentalresultsshowthat,theproposedmethodhasa0.9109correlationwiththebenchmarkdataset-rubensteinconceptpairs.comparedwiththeclassicalmethod,theproposedmethodhashigheraccuracy.keywords:conceptsimilaritycalculation;wordnet;edgeweight;semanticinformation0引言词与词之间的相似性研究多年来一直是自然语言处理和信息检索的一部分,是正确理解文本内容的关键,在计算机语言学和人工智能及应用中语义相似性问题都比较普遍,比如词义消歧、文档分类或聚类、词语拼写纠错、自动翻译、本体学习和信息检索等。语义相似性是比较词语之间的匹配程度也可以理解成分类学上的接近程度,比如两个概念含有共同的父概念,那么它们的相似性就比较高。但是词语之间的互联不仅仅是这种分类上的父子关系还有很多语义上的关联,这样本文引入了语义相关性的概念,语义相关性是概念之间通过某种联系而产生关联,本文用方法识别出这种关联使这种关联能被计算理解这样就达到了使用语义信息。在概念之间进行语义相关的计算都是在已经存在并建好的知识库中进行的,比如wordnet[1],wordnet是由普林斯顿大学认知语言实验室开发的一个词库。在近几十年间很多语义相似性的算法被提出,这些方法主要可以分为以下几类:1)基于距离度量的相似性算法;2)基于信息量的相似性算法;3)基于向量空间的相似性算法;4)综合以上几种方法的计算方法。文献[2]提出一种计算词之间的最短路径的算法,通过这个最短路径来衡量两个概念之间的相似性;wu等[3]引入最小共同父概念来表示两个概念的共性的多少;leacock等[4]提出的算法都是从路径长度以及概念的深度上考虑概念之间的相似性;li等[5]则以非线性函数的形式对最短路径和最小共同父概念组合进行计算;al-mubaid等[6]提出了一种结合最短路径长度和最小上层父概念深度的基于簇的方法,它为每一个层次上分支结构到根节点的部分定义一个簇,使得低层次上的概念对的相似度比高层次上的相似性高;lin等[7]提出的基于信息量的计算方法,考虑了两个概念间在知识库中的共享信息和两个概念分别带有语义信息的比率。本文提出一种基于wordnet[1]并采用概念之间边的权重的相似性算法,概念之间的边的权重能反映概念在词库中的语义关系,一个概念越靠近叶子节点、含有的子概念越少,就说明含有的语义信息就越丰富[8-9]。在计算语义相似性时,两个概念距离越短则它们之间的相似性就越高[2]。本文在已有的距离相似性算法的基础上引入概念之间边的权重,去衡量概念在层次树中的语义丰富性,通过rubenstein原始数据集[10]进行实验,表明该方法在计算语义相似性问题上较其他一些算法和人工判...