聚类分析聚类分析是研究(样品或指标)分类问题的一种多元统计方法
类是指相似元素的集合
分类:1、系统聚类法------(分层聚类)系统聚类法是应用最广泛的一种(HierarchicalCluster过程)1)、聚类原则:都是相近的聚为一类,即距离最近或最相似的聚为一类
2)、分层聚类的方法可以用于样本聚类(Q)型,也可以用于变量聚类(R型)
2、非系统聚类法-----(快速聚类法----K-均值聚类法)(K-meansCluster)3、两步聚类法-----一种探索性的聚类方法(TwoStepCluster)K-均值聚类分析K-meansCluster又称为快速样本聚类法,是非系统聚类中最常用的聚类法
优点:是占内存少、计算量小、处理速度快,特别适合大样本的聚类分析
缺点:应用范围有限,要求用户制定分类数目(要告知),只能对观测量(样本)聚类,而不能对变量聚类,且所使用的聚类变量必须都是连续性变量
基本原理具体做法1、按照指定的分类数目n,按某种方法选择某些观测量,设为{Z1,Z2,…Zn},作为初始聚心
2、计算每个观测量到各个聚心的欧氏距离
即按就近原则将每个观测量选入一个类中,然后计算各个类的中心位置,即均值,作为新的聚心
3、使用计算出来的新聚心重新进行分类,分类完毕后继续计算各类的中心位置,作为新的聚心,如此反复操作,直到两次迭代计算的聚心之间距离的最大改变量小于初始聚类心间最小距离的倍数时,或者到达迭代次数的上限时,停止迭代
2112mkjkikjiijxxzxd数据标准化处理:存储中间过程数据数据标准化处理,并存储
指定5类收敛标准值存储最终结果输出情况,在数据文件中(QCL-1、QCL-2)初始聚心选项,输出方差分析表初始聚类中心表具体城市看后表最终聚类中心表聚类结果:QCL-1说明聚类结果,QCL-2说明聚类的长度情况系统聚类法