基于isodata算法的Iris数据分类VIP免费

下载本文档

阅读 87
下载 1
格式 pdf
大小 1.65 MB
约30页
2024-11-22 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/30页

2/30页

3/30页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

/30

文本预览下载提示常见问题

一．实验目的通过对 Iris data 采用 Isodata算法进行聚类，掌握 Isodata算法的原理以及具体实施步骤。二．实验原理C均值算法比较简单，但它的自我调整能力也比较差。这主要表现在类别数不能改变，受代表点初始选择的影响也比较大。ISODATA算法的功能与C均值算法相比，在下列几方面有改进。1. 考虑了类别的合并与分裂，因而有了自我调整类别数的能力。合并主要发生在某一类内样本个数太少的情况，或两类聚类中心之间距离太小的情况。为此设有最小类内样本数限制N ，以及类间中心距离参数C 。若出现两类聚类中心距离小于C 的情况，可考虑将此两类合并。分裂则主要发生在某一类别的某分量出现类内方差过大的现象，因而宜分裂成两个类别，以维持合理的类内方差。给出一个对类内分量方差的限制参数S ，用以决定是否需要将某一类分裂成两类。2. 由于算法有自我调整的能力，因而需要设置若干个控制用参数，如聚类数期望值K ，每次迭代允许合并的最大聚类对数L 、及允许迭代次数I 等。下面我们将ISODATA算法的步骤列出：步骤 1( 确定控制参数及设置代表点) 需确定的控制参数为，聚类期望数K ，一个聚类中的最少样本数N ，标准偏差控制参数，用于控制分裂S ，类间距离控制参数，用于控制合并C ，每次迭代允许合并的最大聚类对数 L ，允许迭代的次数I 。设初始聚类数为c 及聚类中心,1,2...,im ic 。步骤 2( 分类 ) 对所有样本，按给定的c 个聚类中心，以最小距离进行分类，即若步骤 3( 撤消类内样本数过小类别) 若有任何一个类j ，其样本数jNN，则舍去j ，令1cc，将j 原样本分配至其它类；步骤 4( 更新均值向量 ) 按现有样本分类结果，调整均值参数步骤 5( 计算类内平均距离) 每类中各样本离开均值的平均距离步骤 6( 计算整个样本集偏离均值的平均距离) 步骤 7( 入口选择 ) 如这是最后一次迭代( 取决于迭代上限I ) ，则转步骤11，并设置0C，防止合并发生。如果/ 2cK，则转向步骤8，执行分裂步骤；如果2cK ，则转向步骤11，执行合并步骤。步骤 8( 求各类内各分类标准偏差)对每个聚类j ，求其标准偏差式中kiy是 j 类中第 k 个样本的第 i 分量，jim 是jm 的第 i 个分量，ij 是第 j 个聚类第 i个分量的标准偏差，D是样本特征维数。步骤 9( 求每类具有最大标准偏差的分量) 指每类具有最大标准偏差的分量。步骤 10( 分裂计算步骤 )若任一个max,1,2,...,jjc 有maxjs ，并且有...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

基于isodata算法的Iris数据分类

一．实验目的通过对 Iris data 采用 Isodata算法进行聚类，掌握 Isodata算法的原理以及具体实施步骤

二．实验原理C均值算法比较简单，但它的自我调整能力也比较差

这主要表现在类别数不能改变，受代表点初始选择的影响也比较大

ISODATA算法的功能与C均值算法相比，在下列几方面有改进

考虑了类别的合并与分裂，因而有了自我调整类别数的能力

合并主要发生在某一类内样本个数太少的情况，或两类聚类中心之间距离太小的情况

为此设有最小类内样本数限制N ，以及类间中心距离参数C

若出现两类聚类中心距离小于C 的情况，可考虑将此两类合并

分裂则主要发生在某一类别的某分量出现类内方差过大的现象，因而宜分裂成两个类别，以维持合理的类内方差

给出一个对类内分量方差的限制参数S ，用以决定是否需要将某一类分裂成两类

由于算法有自我调整的能力，因而需要设置若干个控制用参数，如聚类数期望值K ，每次迭代允许合并的最大聚类对数L 、及允许迭代次数I 等

下面我们将ISODATA算法的步骤列出：步骤 1( 确定控制参数及设置代表点) 需确定的控制参数为，聚类期望数K ，一个聚类中的最少样本数N ，标准偏差控制参数，用于控制分裂S ，类间距离控制参数，用于控制合并C ，每次迭代允许合并的最大聚类对数 L ，允许迭代的次数I

设初始聚类数为c 及聚类中心,1,2

,im ic

步骤 2( 分类 ) 对所有样本，按给定的c 个聚类中心，以最小距离进行分类，即若步骤 3( 撤消类内样本数过小类别) 若有任何一个类j ，其样本数jNN，则舍去j ，令1cc，将j 原样本分配至其它类；步骤 4( 更新均值向量 ) 按现有样本分类结果，调整均值参数步骤 5( 计算类内平均距离) 每类中各样本离开均值的平均距离步骤 6( 计算整个样本集偏离均值的平均距离) 步骤 7( 入口选择

您可能关注的文档

文库当当响 + 关注: 实名认证
内容提供者

该用户很懒，什么也没介绍

收藏店铺进入空间

基于isodata算法的Iris数据分类VIP免费

基于isodata算法的Iris数据分类

您可能关注的文档

相关文档

热门下载

相关标签