第1页共27页编号:时间:2021年x月x日书山有路勤为径,学海无涯苦作舟页码:第1页共27页一.实验目的通过对Irisdata采用Isodata算法进行聚类,掌握Isodata算法的原理以及具体实施步骤
二.实验原理C均值算法比较简单,但它的自我调整能力也比较差
这主要表现在类别数不能改变,受代表点初始选择的影响也比较大
ISODATA算法的功能与C均值算法相比,在下列几方面有改进
考虑了类别的合并与分裂,因而有了自我调整类别数的能力
合并主要发生在某一类内样本个数太少的情况,或两类聚类中心之间距离太小的情况
为此设有最小类内样本数限制,以及类间中心距离参数
若出现两类聚类中心距离小于的情况,可考虑将此两类合并
分裂则主要发生在某一类别的某分量出现类内方差过大的现象,因而宜分裂成两个类别,以维持合理的类内方差
给出一个对类内分量方差的限制参数,用以决定是否需要将某一类分裂成两类
由于算法有自我调整的能力,因而需要设置若干个控制用参数,如聚类数期望值每次迭代允许合并的最大聚类对数、及允许迭代次数等
下面我们将ISODATA算法的步骤列出:步骤1(确定控制参数及设置代表点)需确定的控制参数为,聚类期望数,一个聚类中的最少样本数,标准偏差控制参数,用于控制分裂,类间距离控制参数,用于控制合并,每次迭代允许合并的最大聚类对数,允许迭代的次数
设初始聚类数为及聚类中心
步骤2(分类)对所有样本,按给定的个聚类中心,以最小距离进行分类,即若步骤3(撤消类内样本数过小类别)若有任何一个类,其样本数,则舍去,令,将原样本分配至其它类;步骤4(更新均值向量)按现有样本分类结果,调整均值参数第2页共27页第1页共27页编号:时间:2021年x月x日书山有路勤为径,学海无涯苦作舟页码:第2页共27页步骤5(计算类内平均距离)每类中各样本离开均值的平均距离步骤6(计算整个样本集偏离均值