相似度测度总结汇总1相似度文献总结相似度有两种基本类别:(1)客观相似度,即对象之间的相似度是对象的多维特征之间的某种函数关系,比如对象之间的欧氏距离;(2)主观相似度,即相似度是人对研究对象的认知关系,换句话说,相似度是主观认知的结果,它取决于人及其所处的环境,主观相似度符合人眼视觉需求,带有一定的模糊性[13]。1.1客观相似度客观相似度可分为距离测度、相似测度、匹配测度。它们都是衡量两对象客观上的相近程度。客观相似度满足下面的公理,假设对象a与b的相似度判别为。(a,b),有:(1)自相似度是一个常量:所有对象的自相似度是一个常数,通常为1,即。(a,a)。。(b,b)。1(2)极大性:所有对象的自相似度均大于它与其他对象间的相似度,即。(a,b)。。(a,a)和。(a,b)。。(b,b)。(3)对称性:两个对象间的相似度是对称的,即。(a,b)。。(b,a)。(4)唯一性:。(a,b)。1,当且仅当a。b。1.1.1距离测度这类测度以两个矢量矢端的距离为基础,因此距离测度值是两矢量各相应分量之差的函数。设x。。x1,x2,。,xn。,y。。y1,y2,。,yn。表示两个矢量,计算二者之间距离测度的具体方式有多种,最常用的有:''1.1.1.1欧氏距离:euclideandistance-basedsimilarity最初用于计算欧几里德空间中两个点的距离,假设x,y是n维空间的两个点,它们之间的欧几里德距离是:。n。d(x,y)。x。y。。。(xi。yi)2。。i。1。1/2(1.1)第1页共35页当x,y是两个直方图时,该方法可称为直方图匹配法。可以看出,当n=2时,欧几里德距离就是平面上两个点的距离。当用欧几里德距离表示相似度,一般采用以下公式进行转换:距离越小,相似度越大。(1.2)范围。[0,1],值越大,说明d越小,也就是距离越近,则相似度越大。说明。由于特征分量的量纲不一致,通常需要先对各分量进行标准化,使其与单位无关。欧氏距离能够体现个体数值特征的绝对差异,所以更多的用于需要从维度的数值大小中体现差异的分析。优点:简单,应用广泛缺点:没有考虑分量之间的相关性,体现单一特征的多个分量会干扰结果1.1.1.2曼哈顿距离,绝对值距离(街坊距离或manhattan距离):原理。曼哈顿距离来源于城市区块距离,是将多个维度上的距离进行求和后的结果。同欧式距离相似,都是用于多维数据空间距离的测度范围:[0,1],同欧式距离一致,值越小,说明距离值越大,相似度越大。说明:比欧式距离计算量少,性能相对高。d(x,y)。。xi。yi(1.3)i。1n1.1.1.3切氏(chebyshev)距离(棋盘距离/切比雪夫距离):切比雪夫距离起源于国际象棋中国王的走法,我们知道国际象棋国王每次只能往周围的8格中走一步,那么从棋盘中a格(x1,y1)走到b格(x2,y2)最少需要走几步。d(x,y)。maxxi。yi(1.3)i1.1.1.4明氏(minkowski)距离/闵可夫斯基距离:。n。d(x,y)。。。(xi。yi)m。。i。1。1/m(1.4)可以看出,(1.1)、(1.2)、(1.3)式实际上是(1.4)式当m。2,1,。的特殊情况。在实际中较多地使用欧第2页共35页氏距离。显然,在观测量的量纲取定的条件下,两个矢量越相似,距离d(。)就越小,反之亦然。值得注意的是,在使用上述距离测度描述具体对象时,量纲选取不同会改变某特征的判断依据,即改变该特征对判断贡献的大小,严重的可造成错误分类。这是因为改变特征矢量某分量的量纲,进行比较的两个矢量的相应的两个分量的数值也将改变。若变小,则其相应的特征在距离测度中“影响作用比重”将变小,即根据其判断分类的作用变小,反之将增大,这样便不能很好地反映事实。马氏(mahalanobis)距离是不受量纲影响的。1.1.1.5马氏距离(mahalanobis):马氏距离定义如下:设n维矢量xi和xj是矢量集。x1,x2,。,xn。中的两个矢量,它们的马氏距离d定义为d2(xi,xj)。(xi。yi)'v。1(xi。yi)(1.5)1n1n'式中,v。(xi。x)(xi。x),x。。xi。v的含义是这个矢量集的协方差矩阵的。n。1i。1ni。1统计量。适用场合:1)度量两个服从同一分布并且协方差矩阵为c的随机变量x与y的差异程度2)度量x与某一类的均值向量的差异程度,判别样本的归属,此时y...