1 聚类分析 在实际工作中,我们经常遇到分类问题
若事先已经建立类别,则使用判别分析,若事先没有建立类别,则使用聚类分析
聚类分析主要是研究在事先没有分类的情况下,如何将样本归类的方法
聚类分析的内容包含十分广泛,有系统聚类法、动态聚类法、分裂法、最优分割法、模糊聚类法、图论聚类法、聚类预报等多种方法
在Matlab 软件包中,主要使用系统聚类法
系统聚类法是聚类分析中应用最为广泛的一种方法
它的基本原理是:首先将一定数量的样品(或指标)各自看成一类,然后根据样品(或指标)的亲疏程度,将亲疏程度最高的两类合并,如此重复进行,直到所有的样品都合成一类
衡量亲疏程度的指标有两类:距离、相似系数
(1)常用距离 ①欧氏距离 假设有两个 n维样本nxxxx112111,,,和nxxxx222212,,,,则它们的欧氏距离为:njjjxxxxd122121, ②标准化欧氏距离 假设有两个 n维样本nxxxx112111,,,和nxxxx222212,,,,则它们的标准化欧氏距离为: TxxDxxxxsd2112121, 其中,D 表示 m 个样本的方差矩阵:22221,,,mdiagonalD,其中2j表示第 j个样本的方差
③马氏距离 假设共有n 个指标,第i 个指标共测得 m 个数据(要求nm ): imiiixxxx21 于是,我们得到nm阶的数据矩阵nxxxX,,,21,每一行是一个样本数据
nm阶数据矩阵X 的nn阶协方差矩阵记作 XCov
两个 n维样本nxxxx112111,,,和nxxxx222212,,,的马氏距离如下: 2 TxxXCov