聚类分析模型聚类分析研究一组多维样品的分类问题
但在分类之前,对类的个数、类的属性并不清楚,只是希望通过样品间的相似、相近或相互关系的密切程度等较为模糊的概念将它们加以适当的归类
首先需要引入一个适当的规则来度量样品间的相似、相近或相关的程度
“距离”是一个合适的选择
但这里的“距离”并不局限于传统意义上的欧氏距离,只要能在一定意义上刻划出样品间的相似、相近或相互关系密切程度的量都可称为距离,因此距离的定义有很大的灵活性
下面的三条原则是任何一种合理的距离定义应满足的:用YXd,表示按某种方式定义的样品X与Y间的距离,则1非负性0,YXd且YXYXd0,2对称性XYdYXd,,3三角不等式:对任意三个样品X、Y、Z,有ZYdYXdZXd,,,有时为了某种特殊的需要而定义的距离可能不满足上面的三角不等式,特称为广义距离,在聚类分析中也会用到
常用的距离有以下几种:设pxxX,,1,pyyY,,1是两个p维样品,1绝对距离piiiyxYXd1,2欧氏距离2112,piiiyxYXd3契比雪夫距离iipiyxYXd1max,4闵可夫斯基距离qpiqiiyxYXd11,,0q5马氏距离211,YXYXYXd,其中是所有样品的样本协差阵
6兰氏(Lance---William)距离piiiiiyxyxpYXd11,,(适用于样品各分量皆非负的情形)在对一个实际分类问题选定了一种最能刻划样品间相似、相近程度的距离(也称分类统计量)以后,接下来就是制定分类规则
系统聚类法的基本思想是:先将n个样品各自看成一类,共有n个类
然后计算类与类间的距离,选择距离最小的两类合并成一个