SPSS高级统计分析聚类分析聚类分析�为什么聚类
�俗语说,物以类聚、人以群分�当有一个分类指标时,分类比较容易�但是多个指标时,进行分类就不是很容易了
�例如,对中国的区县进行分类:�自然条件:降水、土地、日照、湿度等�经济指标:收入水平、教育程度、医疗条件、基础设施等�平均的方法
�容易忽视相对重要程度的问题�要进行多元分类-聚类分析聚类分析�聚类分析基本目标�一种探索性的数据分析技术�基本目标:在数据中寻找某种“自然的”分组结构�应用举例�细分市场�消费行为划分�设计抽样方案聚类分析�方法原理�聚类分析就是要找出具有相似程度的点或类聚为一类�如何衡量这个“相似程度”
�根据距离来确定�“距离”含义很广:�如欧式距离,马氏距离…,相似系数聚类分析�聚类分析分类�根据分析对象:�R型聚类-对变量(指标)进行聚类�Q型聚类-对观测对象(个体、样品)进行聚类�根据方法:�系统聚类(HierarchicalClustering)�非系统聚类�K-均值聚类�两步聚类注:没有什么聚类方法,具有绝对优势可选择适当的距离,计算距离合并最近的两类为一新类计算新类与当前各类的距离判断画聚类图根据实际情况,确定类和类的个数仅有一个类不是仅有一个类采用系统聚类法聚类分析把每个样品看成一类,构成N个类�系统聚类聚类分析�系统聚类方法可应用多种距离衡量个体/变量的相似性�利用哪种距离聚类取决于:�所分析的数据类型�哪种距离对于聚类最具有解释意义�距离包括:�最短距离法-NearestNeighbor(SingleLinkage)�最长距离法-FurthestNeighbor(CompleteLinkage)�重心法-CentroidClustering�类平均法-Between-groupsLinkage�离差平方和法-Ward’sMethod此外还有中间距离(MedianClustering)、