聚类简介及最新发展1 引言伴随着计算机技术近这些年来的高速猛烈的发展,人类采集与获取数据的能力大幅度提高,信息量迅速增长,互联网的发展更是为我们带来了海量的信息和数据
不过储存在各种数据媒体中的数据,在缺乏有力的分析工具的情况下,已经不是人类的理解和概括能力能够处理的了,正是因为这个理由,作为数据挖掘的一种有效的工具,聚类算法引起了人们的广泛关注
聚类分析是一个古老的问题,人类要认识世界就必须区别不同的事物并认识事物间的相似之处
聚类是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类
由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异
“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题
聚类分析又称群分析,它是研究样品或指标)分类问题的一种统计分析方法
聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性
聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法
聚类与分类的不同在于,聚类所要求划分的类是未知的
本文的文章脉络主要是:首先,先总体介绍聚类算法的几种分类,描述这几种分类的一些特点
然后,通过具体描述和介绍聚类算法中最经典,思想也十分明了清晰的 K-means 聚类算法来给出聚类算法一个具体的形象和它实际上能得到的效果
紧接着,就是通过介绍和描述一个聚类最新的发展成果,让读者能够具体了解聚类算法的发展方向和最新的研究成果
最后就是对整篇文章的总结
2 聚类算法的分类聚类算法可以广泛在市场分析,商业经营,决策支持,模式识别和图像处理等各个不同领域内应用,其主要包括下面几类:2
1 基于分层的聚类这种聚类[3]的算法逐层分解给出的数据集,直到某种条件满足为止
算法又能够分为“自底向上”和“自顶向下”两种