1/4§7消费分布规律的分类为研究辽宁、浙江、河南、甘肃、青海5省份在某年城镇居民生活消费的分布规律,需要用调查资料对这5个省分类.数据见下表:指标省份X1X2X3X4X5X6X7X8辽宁浙江河南甘肃青海7.9039.778.4912.9419.2711.052.0413.297.6850.3711.3513.3019.2514.592.7514.879.4227.938.208.1416.179.421.559.769.1627.989.019.3215.999.101.8211.3510.0628.6410.5210.0516.188.391.9610.81其中,X1:人均粮食支出;X2:人均副食品支出;X3:人均烟、酒、茶支出;X4:人均其它副食品支出;X5:人均衣着商品支出;X6:人均日用品支出;X7:人均燃料支出;X8:人均非商品支出.在科学研究、生产实践、社会生活中,经常会遇到分类的问题.例如,在考古学中,要将某些古生物化石进行科学的分类;在生物学中,要根据各生物体的综合特征进行分类;在经济学中,要考虑哪些经济指标反映的是同一种经济特征;在产品质量管理中,要根据各产品的某些重要指标而将其分为一等品,二等品等等.这些问题可以用聚类分析方法来解决.聚类分析的研究内容包括两个方面,一是对样品进行分类,称为Q型聚类法,使用的统计量是样品间的距离;二是对变量进行分类,称为R型聚类法,使用的统计量是变量间的相似系数.设共有n个样品,每个样品ix有p个变量,它们的观测值可以表示为nixxxxpiiii,,2,1),,,,(21一、样品间的距离下面介绍在聚类分析中常用的几种定义样品ix与样品jx间的距离.1、Minkowski距离mmpkkjkijixxxxd11][),(2、绝对值距离pkkjkijixxxxd1),(3、欧氏距离2121][),(pkkjkijixxxxd二、变量间的相似系数相似系数越接近1,说明变量间的关联程度越好.常用的变量间的相似系数有1、夹角余弦2/4nknkjkiknkjkikijxxxxr11221)()(2、相关系数nknkjjkiiknkjjkiikijxxxxxxxxr112)(2)(1)()()()())((值得注意的是,当指标的测量值相差较大时,直接使用以上各式计算距离或相似系数常使数值较小的变量失去作用,为此需应先对数据进行标准化,然后再用标准化的数据来计算.标准化的具体方法是:pknisxxxkkkiki,,2,1,,,2,1,*其中pkxxnsxnxnikkiknikik,,2,1,)(11,1121三、类与类之间的距离用pG和qG分别代表两个类,它们所包含的样品个数分别记为pn和qn,类pG和qG之间的距离记为),(qpGGD.下面给出三种最常用的定义方法.1、最短距离),(min),(qjpiijqpGxGxdGGD类与类之间的最短距离有如下的递推公式,设rG为由pG和qG合并所得,则rG与其它类),(qpkGk的最短距离为)},(),,({min),(kqkpkrGGDGGDGGD2、最长距离),(max),(qjpiijqpGxGxdGGD类与类之间的最长距离有如下的递推公式,设rG为由pG和qG合并所得,则rG与其它类),(qpkGk的最长距离为)},(),,({max),(kqkpkrGGDGGDGGD3、类平均距离piqjGxGxijqpqpdnnGGD1),(3/4类与类之间的类平均距离有如下的递推公式,设rG为由pG和qG合并所得,则rG与其它类),(qpkGk的类平均距离),(),(),(kqrqkprpkrGGDnnGGDnnGGD,其中qprnnn.以上类与类之间的距离,不但适用于Q型聚类,同样也适合于R型聚类,这只要将ijd用变量间的相似系数ijr代替就行了.为简单起见以下均记成ijd.系统聚类法是目前最流行的方法.有了样品间的距离(或变量间的相似系数)以及类与类之间的距离后,便可进行系统聚类,基本步骤如下:1、n个样品(或p个变量)一开始看作n类(p类),计算两两之间的距离(或相似系数),构成一个对称矩阵nnijdD0,此时显然有pqqpdGGD),(;2、选择0D中对角线元素以外的下三角部分中的最小元素(相似系数矩阵则选择对角线元素以外的最大者),设其为),(qpGGD,则将pG和qG合并为一个新类rG.在0D中划去pG和qG所对应的两行与两列,并加入由新类rG与剩下的未聚合的各类之间的距离所组成的一行和一列,得到一个新的矩阵1D,它是降低了一阶的对称矩阵;3、由1D出发,重复步骤2得到对称矩阵2D,依此类推,直到n个样品(或p个变量)聚为一个大类为止;4、在合并过程中记下两类合并时样品(或变量)的编号以及合并两类时的距离(或相似系数)的大小,并绘成聚类图,然后可根据实际问题的背景和要求选定相应的临界水平以确定类的个数.上面是一个Q型聚类问题,现在用系统聚类法来解决.将每个省份看成一个样品,...