第九章 地理系统聚类分析模型 第一节 聚类分析的方法及变量模型 聚类分析(Clu ster Analy sis)是数理统计中研究“物以类聚”的一种方法。 一、地理系统分类的意义 对地理系统的研究很重要的一个问题就是进行地理分区与分类。 聚类分析法可避免传统分类法的主观性和任意性的特点。 但应特别引起注意的是,对地理数据处理不当,或只要求方法的新颖,有时分类的结果可能与地理实际不符合。 一种科学的分类法,应能正确地反映客观地理事物的内在联系,并能表达出它们之间的相似性和差异性。 聚类分析法的基本特点 二、聚类分析的方法 聚类分析的职能是建立一种分类方法,它是将地理样品或变量,按它们在性质上的亲疏程度进行分类。 描述亲疏程度的两个途径 当确定了样品或变量的距离或相似系数后,就要对样品或变量进行分类,分类的方法很多,主要的两种是: 分类方法 分 类 方 法(续) 在进行聚类分析处理时,样品间的相似系数和距离有各种不同的定义,而这些定义与变量的类型关系极大,通常按照它们的特性分类,变量的特性有三种类型: 变量特性的三种类型 1、名义特性(无序多态) 2、顺序特性(有序多态) 它是由一个有序状态序列所确定,指标量度时没有明确的数量关系,只有次序关系,如对某种地理要素的定性评价为“好的、比较好的、一般的、差的”,又如对某一事件的量度估价为“罕见的、偶然的、一般的、大量的”等。 3、数值特性(定 量) 它是由测量或计数、统计所得的量,如长度、重量、压力、经济统计数字、人口普查数字、抽样调查数据等。 不同类型的变量在定义距离相似性测度时有很大的差异,这里主要研究具有数值特性的变量的聚类分析问题。 聚类分析的分类 R 型聚类分析的作用 选择变量的方法: 在聚合的每类变量中,各选出一个有代表性的变量作为典型变量,为此计算每一个变量与其同类的其它变量的决定系数r2(即相关系数的平方)的均值: r2 = Σ ri2/(K-1) 式中,K 为该类的变量个数。 挑选 r2 值最大的变量 x i 作为该类的典型变量。 Q 型聚类分析优点 第二节 系统聚类分析 系统聚类分析(Hierachical Clu ster Analy sis)是聚类分析中应用最广泛的一种方法,凡是具有数值特征的变量和样品都可以采用系统聚类法。 选择不同的距离和聚类方法可获得满意的数值分类效果。 系统聚类法是把个体逐个地合并成一些子集,直至整个总体都在一个集合之内为止。 系统聚类法的分类步...