第二章 聚 类 分 析 2·4 聚类的算法 2.4.1 聚类的技术方案 ⑴ 简单聚类 根据相似性阈值和最小距离原则聚类 xi∈={ x1,x2,„,xn} = 12„c; if D(xi,mj)≤T, mj=(1/nj)xi(j),xi(j) ∈j,nj是 j中的样本个数,T是给定的阀值。 Then xi∈i 类心一旦确定将不会改变。 ⑵ 谱系或层次聚类 按最小距离原则不断进行两类合并 类心不断地修正,但模式类别一旦指定后就不再改变。 ⑶ 依据准则函数动态聚类 影响聚类结果的主要因数:类心、类别个数、模式输入顺序。 所谓动态聚类,是指上述因数在聚类过程中是可变的。 规定一些分类的目标参数,定义一个能刻划聚类过程或结果优劣的准则函数,聚类过程就是使准则函数取极值的优化过程。这类方法有—均值法、ISODATA法、近邻函数法以及运用图论理论的最小张树法。 2.4.2 简单聚类方法 ㈠ 根据相似性阈值和最小距离原则的简单聚类方法 ⒈ 条件及约定 设待分类的模式为,选定类内距离门限。 ⒉ 算法思想 计算模式特征矢量到聚类中心的距离并和门限比较而决定归属该类或作 为新的一类中心。通常选择欧氏距离。 ⒊ 算法原理步骤 ⑴ 取任意的一个模式特征矢量作为第一个聚类中心。例如,令第一类的中心。 ⑵ 计算下一个模式特征矢量到的距离。若,则建立新的一类,其中心;若,则。 ⑶ 假设已有聚类中心,计算尚未确定类别的模式特征矢量到各聚类中心的距离,如果,则作为新的一类的中心,;否则,如果 ( 2-4-1) 则指判。检查是否所有的模式都分划完类别,如都分划完了则结束;否则返到⑶。 ⒋ 性能 计算简单。 聚类结果很大程度上依赖于距离门限的选取、待分类特征矢量参与分类的次序和聚类中心的选取。 当有特征矢量分布的先验知识来指导门限及初始中心的选取时,可以获得较合理结果。 ⒌ 改进 通常采用试探法,选用不同的门限及模式输入次序来试分类,并对聚类结果进行检验,即用聚类准则函数 J1。例如,计算每一聚类中心与该类中最远样本点的距离,或计算类内及类间方差,用这些结果指导及的重选。最后对各种方案的划分结果进行比较,选取最好的一种聚类结果。 图 (2-4-1) 距离阈值及初始类心对聚类的影响 ㈡ 最大最小距离算法 ⒈ 条件及约定 设待分类的模式特征矢量集为,选定比例系数。 ⒉ 基本思想 在模式特征矢量集中以最大距离原则选取新的聚类中心,以最小距离原则进行模式归类。这种方法通常...