数据聚类试验报告记录附代码VIP免费

下载本文档

阅读 136
下载 13
格式 pdf
大小 1.99 MB
约12页
2024-11-13 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/12页

2/12页

3/12页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

/12

文本预览下载提示常见问题

数据聚类实验报告记录(附代码)2————————————————————————————————作者：————————————————————————————————日期：3实验题目：数据聚类实验1实验目的（1）了解常用聚类算法及其优缺点；（2）掌握k-means聚类算法对数据进行聚类分析的基本原理和划分方法。（3）利用k-means聚类算法对“ch7iris.txt”数据集进行聚类实验。（4）熟悉使用matlab进行算法的实现。2实验步骤2.1算法原理聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇，使得同一个簇内的数据对象的相似性尽可能大，同时不在同一个簇中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起，不同数据尽量分离。k-means是划分方法中较经典的聚类算法之一。由于该算法的效率高，所以在对大规模数据进行聚类时被广泛应用。目前，许多算法均围绕着该算法进行扩展和改进。k-means算法以k为参数，把n个对象分成k个簇，使簇内具有较高的相似度，而簇间的相似度较低。k-means算法的处理过程如下：首先，随机地选择k个对象，每个对象初始地代表了一个簇的平均值或中心;对剩余的每个对象，根据其与各簇中心的距离，将它赋给最近的簇;然后重新计算每个簇的平均值。这个过程不断重复，直到准则函数收敛。通常，采用平方误差准则，其定义如下：kiCpiimpE12，这里E是数据集中所有对象的平方误差的总和，p是空间中的点，im是簇iC的平均值。该目标函数使生成的簇尽可能紧凑独立，使用的距离度量是欧几里得距离,当然也可以用其他距离度量。本实验便采用k-means聚类方法对样本数据对象进行聚类。该方法易实现，对不存在极大值的数据有很好的聚类效果，并且对大数据集有很好的伸缩性。2.2算法流程本实验采用的是k-means聚类算法，类中心的选择基于簇中对象的平均值。（1）获取用户的类中心数目k和具有n个对象的数据集；（2）任意选取k个对象作为初始的簇中心；（3）根据簇中对象的平均值，将每个对象重新赋给最类似的簇；（4）更新簇的平均值，即类中心，重新计算每个簇中对象的平均值；（5）如果新的平均值发生改变，转至（2）步；（6）新的平均值不在发生改变，算法聚类结束。2.2算法流程图4开始选择k值，选取k个对象作为平均值聚类对新生成的簇重新计算平均值Y新的平均值改变N结束图1k-means算法流程图k-means算法流程图，如图1所示。k-means算法中的k，由用户输入，最终得到的类别数即为用户输入的数目。聚类过程中，涉及到初始类中心的选择。在程序中，对于类中心，是选择前k个作为初始类中心，对于数据的组织，前k个数据有较大差别，可以提高程序的运行效率和分类结果的准确率。3实验结果分析在实验中，利用k-means聚类算法对“ch7iris.txt”数据集进行聚类实验。当k=3时，k-means算法聚类效果如图2所示：5图2k=3时聚类效果当k=4时，k-means算法聚类效果如图3所示：图3k=4时聚类效果6K-means聚类算法的收敛性和初值的选取有关。初始的聚类中心的不同，对聚类结果没有很大的影响，而对迭代次数有显著的影响。数据的输入顺序不同，同样影响迭代次数，而对聚类结果没有太大的影响。4实验结论K-means聚类算法对于类别数的选择k值有较高的要求，如果类别数较少，则不能区分数据。K-means聚类算法找出平均误差最小的k个划分。当结果簇是密集的，而簇与簇之间的区别明显时，它的效果较好。该算法只有在簇的平均值被定义的情况下才能使用。对于初始类中心的选择，特别重要。对于分类的准确度和距离影响明显。而且该算法对孤立点是敏感的。所以如果数据集中存在有极大值的对象，应该消除这种敏感性。5实验心得体会1、初始值可的选取K-means聚类算法对于类别数目的选择，需要使用该算法的人员对于数据分类有一定的了解，并且可以根据观察部分原始抽样数据，得出该样本数据的大致类别数目，否则，应用该方法的聚类可能会出现较大的错误率。2、初始类中心的选取初始类中心的选择对聚类的准确度有较大的影响。在初始类中心的选择时，最好选择两两距离较大，且能代表不同数据样本类别的点作为初始的类中心点。参考文献[1]数据挖掘：概念与技术...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

数据聚类试验报告记录附代码

您可能关注的文档

爱的疯狂 + 关注: 实名认证
内容提供者

该用户很懒，什么也没介绍

收藏店铺进入空间

数据聚类试验报告记录附代码VIP免费

数据聚类试验报告记录附代码

您可能关注的文档

相关文档

热门下载

相关标签