1第六章聚类分析第六章聚类分析Clusteringanalysis2谱系聚类的有效性1模糊聚类的有效性26
4聚类的有效性样品之间和两个总体(类)之间究竟采用何种距离为好
先假定样品之间的距离已定,例如选取欧氏距离
对于类间五种不同距离,哪种距离使得聚类效果最好
聚类树的cophenet距离与生成该聚类树的原始距离之间的线性相关系数定义为聚类树的cophenet相关,它度量了个体间的不相似性,若该系数越接近于1,则聚类效果越好
1谱系聚类的有效性1
cophenet相关系数会用4npnnppnxxxxxxxxx21222211121121xxxXd分量依次为样品(2,1),(3,1),…,(n,1),(3,2),…,(n,2),…,(n,n-1)的距离,即用距离命令d=pdist(X)得到的距离向量
Tnnddd),,(/)(2121d---样本间距离行向量---样本观测矩阵5Tnnzzz),,(/)(2121z分量依次为样品(2,1),(3,1),…,(n,1),(3,2),…,(n,2),…,(n,n-1)初次并为一个类中时的距离,称为cophenetic距离(和聚类树产生的距离相关)
---cophenetic距离向量6cophenet相关系数21122112211/)(/)(/)()()())((nnkknnkknnkkkddzzddzzR2/)1(12/)1(1,nnkknnkkddzz注意:cophenet相关系数R反应了聚类效果好坏,R越接近1,聚类效果越好
可通过R对比各种不同的距离计算方法和不同的系统聚类方法的聚类效果
---平均值7MATLAB计算cophenet相关系数命令:d=pdist(X,distance)%计算样