聚类分析原理及步骤聚类分析原理及步骤1、什么是聚类分析?聚类分析也称群分析或点群分析,它是讨论多要素事物分类问题的数量方法,是一种新兴的多元统计方法,是当代分类学与多元分析的结合。其基本原理是,根据样本自身的属性,用数学方法根据某种相似性或差异性指标,定量地确定样本之间的亲疏关系,并按这种亲疏关系程度对样本进行聚类。聚类分析是将分类对象置于一个多维空问中,根据它们空问关系的亲疏程度进行分类。通俗的讲,聚类分析就是根据事物彼此不同的属性进行辨认,将具有相似属性的事物聚为一类,使得同一类的事物具有高度的相似性。聚类分析方法,是定量地讨论地理事物分类问题和地理分区问题的重要方法,常见的聚类分析方法有系统聚类法、动态聚类法和模糊聚类法等。2、聚类分析方法的特征(1)、聚类分析简单、直观。(2)、聚类分析主要应用于探究性的讨论,其分析的结果可以提供多个可能的解,选择最终的解需要讨论者的主观推断和后续的分析。(3)、不管实际数据中是否真正存在不同的类别,利用聚类分析都能得到分成若干类别的解。(4)、聚类分析的解完全依赖于讨论者所选择的聚类变量,增加或删除一些变量对最终的解都可能产生实质性的影响。(5)、讨论者在使用聚类分析时应特别注意可能影响结果的各个因素。(6)、异常值和特别的变量对聚类有较大影响,当分类变量的测量尺度不一致时,需要事先做标准化处理。3、聚类分析的进展历程在过去的几年中聚类分析进展方向有两个:加强现有的聚类算法和发明新的聚类算法。现在已经有一些加强的算法用来处理大型数据库和高维度数据,例如小波变换使用多分辨率算法,网格从粗糙到密集从而提高聚类簇的质量。然而,对于数据量大、维度高并且包含许多噪声的集合,要找到一个“全能”的聚类算法是非常困难的。某些算法只能解决其中的两个问题,同时能很好解决三个问题的算法还没有,现在最大的困难是高维度(同时包含大量噪声)数据的处理。算法的可伸缩性是一个重要的指标,通过采纳各种技术,一些算法具有很好的伸缩性。这些技术包括:数据采样、信息浓缩、网格和索引。CLARANS 是最早使用数据采样的算法,CURE 使用优选的采样点,信息浓缩技术在 BIRCH 方法和 DECLIJE 方法中得到应用。许多算法都使用了索引技术,典型的有:BIRCH 方法、DBSCAN 方法、小波变换方法、DENCLUE 方法、DENCLUE 方法、小波变换方法、STING 方法和 CLIQUE 方法使用了网格技术。但是以上方法...