软计算在数据聚类技术中的应用摘要:软计算是一个新的研究领域,在求解复杂的组合优化问题中获得成功并表现出良好性能。简单地介绍了软计算方法目前的研究状况,阐述了算法的基本原理和特性及其在聚类技术中的应用。关键词:软计算聚类算法进化计算神经网络模糊逻辑中图分类号:tm714文献标识码:a文章编号:1007-9416(2012)02-0146-021、引言数据挖掘技术历经十几年的发展,各种算法不断涌现,多学科间交叉,其中包括数理统计、人工智能、机器学习等,这些算法已经成功地运用于数据挖掘,解决了很多的实际问题。近年来,人们对软计算理论进行了广泛地研究,特别是将这些算法运用于数据挖掘,解决了许多传统聚类算法无能为力的聚类问题,为聚类算法的研究开辟了新领域。本文将介绍软计算[1]中比较典型的几种技术在数据聚类中的应用。2、传统聚类分析算法简介聚类分析是数据挖掘的重要技术之一。聚类就是把相似度最大的样本归为一类的过程。在这个过程中,数据是被无监督训练来处理的。从现有的文献中可以知道很多种类的数据聚类算法,这些方法正广范应用于数据聚类技术中,对信息的处理起到了巨大的作用,但也存在着不足[2]。这些算法在实现过程中,容易陷入局部最优,而得不到全局最优解。随着所处理数据的不断变化它们的缺点和不足就会表现出来。人们想出了很多的策略对这些经典的聚类算法进行改进,得到了很好的效果。尽管这样,对于很多的聚类问题,传统的聚类算法也是束手无策的。3、软计算简介软计算[3],也称为“计算智能”,是人工智能的重要组成部分,它是研究模拟人类的思维或生物的自适应、自组织能力,来实现计算技术智能性的一门新学科。模糊逻辑的创始人l.a.zadeh提出了“软计算”的概念,并指出其关键技术和应用领域。软计算促进了各种智能理论、模型和方法的综合集成研究,有利于解决更为复杂的问题。进化计算、人工神经网络和模糊逻辑这三项技术已经成为了软计算的主要的支撑技术。通常软计算得到的结果是近似最优的,例如进化计算用来进行最优解的搜索;人工神经网络用来对数据进行分类;模糊集用来处理不确定性的概念及其推理的过程。与传统聚类方法相比,这些算法使系统的智能性更强,弥补了传统算法的一些不足。4、数据挖掘中的软计算方法4.1进化计算4.1.1遗传算法遗传算法[4]是软计算中的一种进化计算算法,基本思想是优胜劣汰为原则,用概率传递规则代替确定性的规则,对包含可能解的群体反复使用遗传学的基本操作,不断生成新的群体,使种群不断进化,同时以全局的搜索技术搜索和优化群体中的最优个体,以求得满足要求的最优解。遗传算法在组合优化问题、机器学习、人工生命等领域显示出了它的应用前景和潜力。4.1.2人工免疫系统人工免疫系统[5]是进化计算的一种新型算法,基本思想是借鉴生物免疫系统各种原理和机制而产生的各种智能系统的统称。它是一种自动识别、自我组织的自适应系统,由几个基本功能组成,有组织地分布于身体的各个部位。免疫系统的主要功能是识别身体内的细胞(或分子),把这些细胞分为自体和非自体细胞,非自体细胞又被进一步地识别和分类,便于免疫系统以适当方式刺激身体地防御机制,杀死有害的非自体细胞,生物免疫系统的学习是不断的识别外部抗原和自己身体内部的自有细胞而演化地进行的。聚类过程实质上就是免疫系统不断产生抗体,识别抗体,最后产生可以捕获抗原的最佳抗体的过程。4.2人工神经网络人工神经网络是迅速发展起来的一个研究领域。它是运用人类神经的运动机理,模拟人脑的思维,通过神经元间的相互作用来完成运算。神经网络不仅具备了人类的某些思维特性,而且同时具备了强大的学习能力。人工神经网络对数据挖掘的贡献主要是在规则的提取和自组织上,它对分类或决策分析是非常重要的。基于神经网络的聚类算法比较著名的方法有:竞争学习和自组织特性映射,这两种方法都涉及有竞争的神经元。人工神经网络有很多的优良特性,适用范围很广,对于复杂问题有其独特的解决方案和处理过程。人们对神经网路进行了大量的研究,目前有许多成熟的网络模型应用于实际中。4.3模糊逻辑方法模糊逻辑[6]是一种应用最早的软计算方法...