Equ ation Chapter 1 Section 1 《多 元 统 计 分 析》 Mu ltiv ariate Statistical Analy sis 主讲:统计学院 许启发(x u qifa1975@163.com) 统计学院应用统计学教研室 School of Statistics 2004 年9 月 注意电子文档使用范围 第 页 1 第二章 聚类分析 【教学目的】 1. 让学生了解聚类分析的背景、基本思想; 2. 掌握聚类分析的基本原理与方法; 3. 掌握聚类分析的操作步骤和基本过程; 4. 学会应用聚类分析解决实际问题。 【教学重点】 1. 分类的统计量; 2. 各种聚类分析方法的阐述。 §1 概述 一、什么是聚类分析 1.研究背景 在实际问题中,经常要遇到分类的问题。例如,在考古学中,要将某些古生物化石进行科学的分类;在生物学中,要根据各生物体的综合特征进行分类;在经济学中,为了研究不同地区城镇居民的收入及消费情况,往往需要划分为不同的类型去研究;在产品质量管理中,也要根据各产品的某些重要指标而将其分为一等品,二等品等等。总之,科学的分类方法无论在自然科学,还是在社会科学中,都有着极其广泛的应用。 俗语说,物以类聚、人以群分。但什么是分类的根据呢?比如,要想把中国的县分成若干类,就有很多种分类法;可以按照自然条件来分,比如考虑降水、土地、日照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施等指标;既可以用某一项来分类,也可以同时考虑多项指标来分类。 随着人类社会的发展与科学技术的进步,对分类学的要求也越来越高。有时,只凭经验和专业知识还不能进行科学有效的分类,于是数学这一有力的工具被逐渐引入到分类学中,形成了一门新兴的学科——数值分类学。后来,随着多元分析方法的引进,从数值分析学中逐渐分离出了聚类分析这个分支。 对于一个数据,人们既可以按照观测值对变量(或指标)进行分类(相当于对数据中的列分类),也可以按照变量对观测值(事件,样品)来分类(相当于对数据中的行分类)。比如利用学生成绩数据就可以对学生按照理科或文科成绩(或者综合考虑各科成绩)分类。当然,并不一定事先假定有多少类,完全可以按照数据本身的规律来分类。本章要介绍的分类的方法称为聚类分析(cluster analysis)。有人称按照观测值对变量的分类为 R 型聚类,而称按照变量对观测值的分类称为 Q 型聚类。这两种聚类在数学上是对称的,没有什么不同。 聚类分析就是一种分类方法,它将一批样品、变量...