1第六章聚类分析第六章聚类分析Clusteringanalysis2谱系聚类的有效性1模糊聚类的有效性26.4聚类的有效性样品之间和两个总体(类)之间究竟采用何种距离为好?先假定样品之间的距离已定,例如选取欧氏距离.对于类间五种不同距离,哪种距离使得聚类效果最好?聚类树的cophenet距离与生成该聚类树的原始距离之间的线性相关系数定义为聚类树的cophenet相关,它度量了个体间的不相似性,若该系数越接近于1,则聚类效果越好.6.4.1谱系聚类的有效性1.cophenet相关系数会用4npnnppnxxxxxxxxx21222211121121xxxXd分量依次为样品(2,1),(3,1),…,(n,1),(3,2),…,(n,2),…,(n,n-1)的距离,即用距离命令d=pdist(X)得到的距离向量。Tnnddd),,(/)(2121d---样本间距离行向量---样本观测矩阵5Tnnzzz),,(/)(2121z分量依次为样品(2,1),(3,1),…,(n,1),(3,2),…,(n,2),…,(n,n-1)初次并为一个类中时的距离,称为cophenetic距离(和聚类树产生的距离相关)。---cophenetic距离向量6cophenet相关系数21122112211/)(/)(/)()()())((nnkknnkknnkkkddzzddzzR2/)1(12/)1(1,nnkknnkkddzz注意:cophenet相关系数R反应了聚类效果好坏,R越接近1,聚类效果越好。可通过R对比各种不同的距离计算方法和不同的系统聚类方法的聚类效果。---平均值7MATLAB计算cophenet相关系数命令:d=pdist(X,distance)%计算样品距离向量dz=linkage(d,method)%计算类间距离R=cophenet(z,d)%求Z和d的cophenet相关系数[R,copd]=cophenet(z,d)输入d是样品之间的某种距离,z是用某种类间距离linkage后的结果.输出R为cophene相关系数,copd为cophene距离向量.判断:R越接近于1,聚类效果越好。表6.15省(区、市)城镇居民人均家庭收入例6.4.12008年我国5省、区、市城镇居民人均年家庭收入如下表为了研究上述5个省、区、市的城镇居民收入差异,进行谱系聚类时,选用哪种类间距离好?解:以样品间的距离为欧氏距离为例,考虑类间的五种不同距离:最短距离:z1=linkage(d)最长距离:z2=linkage(d,'complete')类平均距离:z3=linkage(d,'average')重心距离:z4=linkage(d,'centroid')离差平方和:z5=linkage(d,'ward')其中d=pdist(x),x为原始矩阵.程序:x=[18738.96778.36452.757707.8721791.111399.14369.126199.779302.38959.43293.923603.728354.63638.7665.332610.619422.22938.15141.751976.49];d=pdist(x);%计算出各行之间的欧氏距离z1=linkage(d)%最短距离法系统聚类z2=linkage(d,'complete')%最长距离z3=linkage(d,'average')%类平均距离z4=linkage(d,'centroid')%重心距离z5=linkage(d,'ward')%离差平方和R=[cophenet(z1,d),cophenet(z2,d),cophenet(z3,d),cophenet(z4,d),cophenet(z5,d)]%计算cophenet相关系数输出结果:R=0.98090.98110.9812最大0.9812最大0.9803由于最大值为0.9812,所以类间距离为类平均距离和重心距离效果最好.说明:如果要找到最理想的分类方法,可对每一种样品之间的距离,都计算上述的复合相关系数,这样就可找到最理想的样品距离与对应的类间距离.2R21kkkBPRTT2.样品之间距离与类间距离搭配评价准则(自学):(1)统计量:2kR表明k个类的类间偏差平方总和kB和在总离差平方和T中占比例,比例越大说明k个类能够分开。2kR可用于评价合并为类时聚类效果,2kR越大,效果越好。当样品类数k由n到1类变化时,2kR由1变到0,可从2kR变化来确定分为几个类合适。越大,聚类效果越好ktnitTttktxxxxnB11)()(ktnitiTtitT11)()()()(xxxx样本总离差平方和分解:kkBPT--总离差平方和--类内偏差差平方和--类间偏差差平方和第t类样品总离差平方和第t类样品距离总类重心总离差平方和第t类样品重心到总类重心加权离差平方和ktnittiTttiktP11)()()()()()(xxxxPk小,Bk大,分类效果好总离差平方和ktnitiTtitT11)()()()(xxxx)(2px)(1px)(3px)(1qx)(2qxx)(qx)(px)(2px)(1px)(3px)(1qx)(2qx类内偏差平方和ktnittiTttiktP11)...