1 聚类分析 在实际工作中,我们经常遇到分类问题。若事先已经建立类别,则使用判别分析,若事先没有建立类别,则使用聚类分析。 聚类分析主要是研究在事先没有分类的情况下,如何将样本归类的方法。 聚类分析的内容包含十分广泛,有系统聚类法、动态聚类法、分裂法、最优分割法、模糊聚类法、图论聚类法、聚类预报等多种方法。 在Matlab 软件包中,主要使用系统聚类法。 系统聚类法是聚类分析中应用最为广泛的一种方法。它的基本原理是:首先将一定数量的样品(或指标)各自看成一类,然后根据样品(或指标)的亲疏程度,将亲疏程度最高的两类合并,如此重复进行,直到所有的样品都合成一类。衡量亲疏程度的指标有两类:距离、相似系数。 (1)常用距离 ①欧氏距离 假设有两个 n维样本nxxxx112111,,,和nxxxx222212,,,,则它们的欧氏距离为:njjjxxxxd122121, ②标准化欧氏距离 假设有两个 n维样本nxxxx112111,,,和nxxxx222212,,,,则它们的标准化欧氏距离为: TxxDxxxxsd2112121, 其中,D 表示 m 个样本的方差矩阵:22221,,,mdiagonalD,其中2j表示第 j个样本的方差。 ③马氏距离 假设共有n 个指标,第i 个指标共测得 m 个数据(要求nm ): imiiixxxx21 于是,我们得到nm阶的数据矩阵nxxxX,,,21,每一行是一个样本数据。nm阶数据矩阵X 的nn阶协方差矩阵记作 XCov。 两个 n维样本nxxxx112111,,,和nxxxx222212,,,的马氏距离如下: 2 TxxXCovxxxxmahal2112121, 马氏距离考虑了各个指标量纲的标准化,是对其它几种距离的改进。马氏距离不仅排除了量纲的影响,而且合理考虑了指标的相关性。 ④布洛克(City Block)距离 两个n维样本nxxxx112111,,,和nxxxx222212,,,的布洛克距离如下: njjjxxxxb12121, ⑤明可夫斯基( Minkowski )距离 两个n维样本nxxxx112111,,,和nxxxx222212,,,的明可夫斯基距离: pnjpjjxxxxm112121, 注意:1p时是布洛克距离,2p时是欧氏距离。 ⑥余弦距离(Cosine distance ) TTTXXXXXXXXd221121211, 这是...