电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

数据聚类试验报告记录附代码VIP免费

数据聚类试验报告记录附代码_第1页
1/12
数据聚类试验报告记录附代码_第2页
2/12
数据聚类试验报告记录附代码_第3页
3/12
数据聚类实验报告记录(附代码)2————————————————————————————————作者:————————————————————————————————日期:3实验题目:数据聚类实验1实验目的(1)了解常用聚类算法及其优缺点;(2)掌握k-means聚类算法对数据进行聚类分析的基本原理和划分方法。(3)利用k-means聚类算法对“ch7iris.txt”数据集进行聚类实验。(4)熟悉使用matlab进行算法的实现。2实验步骤2.1算法原理聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起,不同数据尽量分离。k-means是划分方法中较经典的聚类算法之一。由于该算法的效率高,所以在对大规模数据进行聚类时被广泛应用。目前,许多算法均围绕着该算法进行扩展和改进。k-means算法以k为参数,把n个对象分成k个簇,使簇内具有较高的相似度,而簇间的相似度较低。k-means算法的处理过程如下:首先,随机地选择k个对象,每个对象初始地代表了一个簇的平均值或中心;对剩余的每个对象,根据其与各簇中心的距离,将它赋给最近的簇;然后重新计算每个簇的平均值。这个过程不断重复,直到准则函数收敛。通常,采用平方误差准则,其定义如下:kiCpiimpE12,这里E是数据集中所有对象的平方误差的总和,p是空间中的点,im是簇iC的平均值。该目标函数使生成的簇尽可能紧凑独立,使用的距离度量是欧几里得距离,当然也可以用其他距离度量。本实验便采用k-means聚类方法对样本数据对象进行聚类。该方法易实现,对不存在极大值的数据有很好的聚类效果,并且对大数据集有很好的伸缩性。2.2算法流程本实验采用的是k-means聚类算法,类中心的选择基于簇中对象的平均值。(1)获取用户的类中心数目k和具有n个对象的数据集;(2)任意选取k个对象作为初始的簇中心;(3)根据簇中对象的平均值,将每个对象重新赋给最类似的簇;(4)更新簇的平均值,即类中心,重新计算每个簇中对象的平均值;(5)如果新的平均值发生改变,转至(2)步;(6)新的平均值不在发生改变,算法聚类结束。2.2算法流程图4开始选择k值,选取k个对象作为平均值聚类对新生成的簇重新计算平均值Y新的平均值改变N结束图1k-means算法流程图k-means算法流程图,如图1所示。k-means算法中的k,由用户输入,最终得到的类别数即为用户输入的数目。聚类过程中,涉及到初始类中心的选择。在程序中,对于类中心,是选择前k个作为初始类中心,对于数据的组织,前k个数据有较大差别,可以提高程序的运行效率和分类结果的准确率。3实验结果分析在实验中,利用k-means聚类算法对“ch7iris.txt”数据集进行聚类实验。当k=3时,k-means算法聚类效果如图2所示:5图2k=3时聚类效果当k=4时,k-means算法聚类效果如图3所示:图3k=4时聚类效果6K-means聚类算法的收敛性和初值的选取有关。初始的聚类中心的不同,对聚类结果没有很大的影响,而对迭代次数有显著的影响。数据的输入顺序不同,同样影响迭代次数,而对聚类结果没有太大的影响。4实验结论K-means聚类算法对于类别数的选择k值有较高的要求,如果类别数较少,则不能区分数据。K-means聚类算法找出平均误差最小的k个划分。当结果簇是密集的,而簇与簇之间的区别明显时,它的效果较好。该算法只有在簇的平均值被定义的情况下才能使用。对于初始类中心的选择,特别重要。对于分类的准确度和距离影响明显。而且该算法对孤立点是敏感的。所以如果数据集中存在有极大值的对象,应该消除这种敏感性。5实验心得体会1、初始值可的选取K-means聚类算法对于类别数目的选择,需要使用该算法的人员对于数据分类有一定的了解,并且可以根据观察部分原始抽样数据,得出该样本数据的大致类别数目,否则,应用该方法的聚类可能会出现较大的错误率。2、初始类中心的选取初始类中心的选择对聚类的准确度有较大的影响。在初始类中心的选择时,最好选择两两距离较大,且能代表不同数据样本类别的点作为初始的类中心点。参考文献[1]数据挖掘:概念与技术...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

数据聚类试验报告记录附代码

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部