电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

基于聚类分析的Kmeans算法研究及应用概要VIP免费

基于聚类分析的Kmeans算法研究及应用概要_第1页
1/20
基于聚类分析的Kmeans算法研究及应用概要_第2页
2/20
基于聚类分析的Kmeans算法研究及应用概要_第3页
3/20
第24卷第5期2007年5月计算机应用研究ApplicationResea心hofComputersV01.24.No.5Mav2007基于聚类分析的K—means算法研究及应用爿:张建萍1,刘希玉2(1.山东师范大学信息科学与工程学院,山东济南250014;2.山东师范大学管理学院,山东济南250014摘要:通过对聚类分析及其算法的论述,从多个方面对这些算法性能进行比较,同时以儿童生长发育时期的数据为例通过聚类分析的软件和改进的K.means算法来进一步阐述聚类分析在数据挖掘中的实践应用。关键词:数据挖掘;聚类分析;数据库;聚类算法中图分类号:TP311文献标志码:A文章编号:1001—3695(200705—0166-03ApplicationinCluster’sAnalysisIsAnalyzedinChildrenDeVelopmentPeriodZHANGJian—pin91,UUXi—yu。(1.coz比伊矿,咖mo砌n5c掂Me&E蟛袱^增,|s胁础增Ⅳo丌mf‰洫瑙毋,五n帆5^a蒯D昭250014,吼i胁;2.cozz学矿讹加舻删眦,s^0n幽凡g舳丌Mf‰i孵璐匆,^加n乩。砌。昭250014,傩iMAbstract:nispaperpassedcluster’sanalysisanditsalgorithmcorTectly,comparedthesealgorithmperfbrnlancesf}omalotofrespects,andexplainedthatclusteranalysisexcavatesthepracticeapplicationofindatumfurthertocomethroughsoftwareandimpmvedK—meansaIgorithm,cIusterofanalysisatthesametimepractiseappIication.Keywords:datamining;clusteranalysis;database;clusteralgorithm随着计算机硬件和软件技术的飞速发展,尤其是数据库技术的普及,人们面临着日益扩张的数据海洋,原来的数据分析工具已无法有效地为决策者提供决策支持所需要的相关知识,从而形成一种独特的现象“丰富的数据,贫乏的知识”。数据挖掘⋯又称为数据库中知识发现(KnowledgeDiscoveryfromDatabase,KDD,它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程。目的是在大量的数据中发现人们感兴趣的知识。常用的数据挖掘技术包括关联分析、异类分析、分类与预测、聚类分析以及演化分析等。由于数据库中收集了大量的数据,聚类分析已经成为数据挖掘领域的重要技术之一。1问题的提出随着社会的发展和人们生活水平的提高,优育观念嵋一。逐渐渗透到每个家庭,小儿的生长发育越来越引起家长们的重视。中国每隔几年都要进行全国儿童营养调查,然而用手工计算的方法在大量的数据中分析出其中的特点和规律,显然是不现实的,也是不可行的。为了有效地解决这个问题,数据挖掘技术——聚类分析发挥了巨大的作用。在数据挖掘领域,聚类算法经常遇到一些问题如聚类初始点的选择HJ、模糊因子的确定‘5o等,大部分均已得到解决。现在的研究工作主要集中在为大型的数据库有效聚类分析寻找适当的方法、聚类算法对复杂分布数据和类别性数据聚类的有效性以及高维数据聚类技术等方面。本文通过对聚类分析算法的分析并重点从聚类分析的软件工具和改进的K—means算法两个方面来论证聚类分析在儿童生长发育时期中的应用。2聚类算法分析聚类∞1分析是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。在医学实践中也经常需要做分类工作,如根据病人的一系列症状、体征和生化检查的结果,判断病人所患疾病的类型;或对一系列检查方法及其结果,将之划分成某几种方法适合用于甲类病的检查,另几种方法适合用于乙类病的检查,等等。聚类分析被广泛研究了许多年。基于聚类分析的工具已经被加入到许多统计分析软件包或系统中,如S—Plus、sPSS,以及SAS。大体上,聚类算法¨o可以划分为如下几类:(1划分方法。给定一个包含n个对象或数据行,划分方法将数据集划分为南个子集(划分。其中每个子集均代表一个聚类(%≤n。代表算法为K—means算法、K—medoids算法和cLAm~Ns算法。(2层次方法。该方法就是通过分解所给定的数据对象集来创建一个层次。它存在的缺陷就是在进行(组分解或合并之后无法回溯。将循环再定位与层次方法结合起来使用常常是有效的,如BIRcH和CURE,就是基于这种组合方法设计的。(3基于密度的方法。只要临近区域的密度(对象或数据点的数目超过某个阈值,就继续聚类。DBscAN是一个有代表性的基于密度的方法。它根据一个密度阈值来控制簇的增长。(4基于网格的方法。基于网格方法将对...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

基于聚类分析的Kmeans算法研究及应用概要

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部