SPSS高级统计分析聚类分析聚类分析�为什么聚类?�俗语说,物以类聚、人以群分�当有一个分类指标时,分类比较容易�但是多个指标时,进行分类就不是很容易了!�例如,对中国的区县进行分类:�自然条件:降水、土地、日照、湿度等�经济指标:收入水平、教育程度、医疗条件、基础设施等�平均的方法?�容易忽视相对重要程度的问题�要进行多元分类-聚类分析聚类分析�聚类分析基本目标�一种探索性的数据分析技术�基本目标:在数据中寻找某种“自然的”分组结构�应用举例�细分市场�消费行为划分�设计抽样方案聚类分析�方法原理�聚类分析就是要找出具有相似程度的点或类聚为一类�如何衡量这个“相似程度”?�根据距离来确定�“距离”含义很广:�如欧式距离,马氏距离…,相似系数聚类分析�聚类分析分类�根据分析对象:�R型聚类-对变量(指标)进行聚类�Q型聚类-对观测对象(个体、样品)进行聚类�根据方法:�系统聚类(HierarchicalClustering)�非系统聚类�K-均值聚类�两步聚类注:没有什么聚类方法,具有绝对优势可选择适当的距离,计算距离合并最近的两类为一新类计算新类与当前各类的距离判断画聚类图根据实际情况,确定类和类的个数仅有一个类不是仅有一个类采用系统聚类法聚类分析把每个样品看成一类,构成N个类�系统聚类聚类分析�系统聚类方法可应用多种距离衡量个体/变量的相似性�利用哪种距离聚类取决于:�所分析的数据类型�哪种距离对于聚类最具有解释意义�距离包括:�最短距离法-NearestNeighbor(SingleLinkage)�最长距离法-FurthestNeighbor(CompleteLinkage)�重心法-CentroidClustering�类平均法-Between-groupsLinkage�离差平方和法-Ward’sMethod此外还有中间距离(MedianClustering)、类内平均法(Within-GroupsLinkage)等聚类分析�最短距离法-NearestNeighbor�对离群值不敏感聚类分析�最长距离法-FurthestNeighbor�对离群值不敏感聚类分析�重心法-CentroidMethod�对离群值不敏感�不适用于噪声数据�类平均法-Between-GroupsLinkage�对离群值敏感�在多数情况下,可以取得较好的聚类结果�可很好地应用于有噪声数据聚类分析�重心法-CentroidMethod�离群值敏感�可适用于噪声数据�趋向于把观测分成数目近乎相等的类群聚类分析�重心法-CentroidMethod�离群值敏感�可适用于噪声数据�趋向于把观测分成数目近乎相等的类群聚类分析聚类分析聚类分析�非系统聚类�K-均值聚类�TwoStep聚类聚类分析�非系统聚类�K均值聚类�首先,选择n个数值型变量参与聚类分析,最后要求的聚类数为k个�其次,由系统选择k个(聚类的类数)观测量(也可由用户指定)作为聚类的种子�第三,按照距离这些类中心的距离最小的原则把所有观测量(样品)分派到各类重心所在的类中去�第四,这样每类中可能由若干个样品,计算每个类中各个变量的均值,以此作为第二次迭代的中心�第五,然后根据这个中心重复第三、第四步,直到中心的迭代标准达到要求时,聚类过程结束聚类分析�非系统聚类�K均值聚类�K均值聚类的速度快于系统聚类,是处理大型数据集聚类的常用方法�内存占用小�由于要事先选定聚类数,所以要尝试多次,以找出最佳聚类聚类分析�非系统聚类�TwoStep聚类�可有效地分析大型数据集�可处理分类、定量型数据�可自动确定聚类数目�TwoStep聚类过程�Pre-clusterStep�生成聚类特性树�ClusteringStep�根据聚类准则确定最终聚类�TwoStep聚类的一些假定�连续型变量不相关,并服从正态分布�分类型变量不相关,并服从多项分布�比较稳健,不满足上述假设时,有时也可以得到很好的结果聚类分析�距离&变量标准化�距离:SPSS根据数据类型,提供不同的观测/变量的距离或相似性度量�Interval�Counts�Binary�变量标准化:对变量进行聚类时,是否要进行标准化?�当聚类的变量的测度水平存在很大差异时�注,当以对数似然函数的改变量作为距离的度量时,则可以不用考虑标准化问题实例分析�系统聚类分析�数据说明:Beer.sav�数据记录了对20种啤酒的评级。对于酒的评价包括客观的和主观的�客观评价如:酒精的百分含...