聚类分析的方法 一、系统聚类法 系统聚类分析法就是利用一定的数学方法将样品或变量(所分析的项目)归并为若干不同的类别(以分类树形图表示),使得每一类别内的所有个体之间具有较密切的关系,而各类别之间的相互关系相对地比较疏远。系统聚类分析最后得到一个反映个体间亲疏关系的自然谱系,它比较客观地描述了分类对象的各个体之间的差异和联系。根据分类目的不同,系统聚类分析可分为两类:一类是对变量分类,称为R 型分析;另一类是对样品分类,称为Q 型分析。系统聚类分析法基本步骤如下(许志友,1988)。 (一)数据的正规化和标准化 由于监测时所得到的数值各变量之间相差较大,或因各变量所取的度量单位不同,使数值差别增大,如果不对原始数据进行变换处理,势必会突出监测数据中数值较大的一些变量的作用,而消弱数值较小的另一些变量的作用,克服这种弊病的办法是对原始数据正规化或标准化,得到的数据均与监测时所取的度量单位无关。 设原始监测数据为Xij (i=1,2,…,n;j=1,2,…,m;n为样品个数,m 为变量个数),正规化或标准化处理后的数据为Zij (i=1,2,…,n;j=1,2,…,m)。 1. 正规化计算公式如下: (7-32) (i=1,2,…,n;j=1,2,…,m) 2. 标准化计算公式如下: (7-33) (i=1,2,…,n;j=1,2,…,m) 其中: (二)数据分类尺度计算 为了对数据Zij 进行分类,须对该数据进一步处理,以便从中确定出分类的尺度,下列出分类尺度计算的四种方法。 1.相关系数R 两两变量间简单相关系数定义为: (7-34) (i,j=1,2,…,m) 其中 一般用于变量的分类(R 型)。有一1≤≤1 且愈接近 1 时,则此两变量愈亲近,愈接近-1,则关系愈疏远。 2.相似系数 相似系数的意义是,把每个样品看做 m 维空间中的一个向量,n个样品相当于 m 维空间中的n个向量。第 i 个样品与第 j 个样品之间的相似系数是用两个向量之间的夹角余弦来定义,即: (7-35) (i,j=1,2,…,m) 常用于样品间的分类(Q 型)。有一 1≤ ≤1,且的值愈大,愈接近 l,两个样品关系愈亲近。 3.欧氏距离 欧氏距离含义为,对每个样品,把它的m 个因素(变量)的值看做 m 维空间中的一个点,则,2 个样品就是 7n维系空间中 n个点,则第 i 个样品与第 j 个样品之间的距离为: (7-36) (i,j=1,2,…,m) 一般用做样品间的分类。显然有 0≤≤1,距离愈小,表示两个...