CURE 聚类算法的实现 任务背景 聚类(clu stering)就是将数据对象分组成为多个类或簇(clu ster),在同一簇中的对象之间具有较高的相似度,而不同的簇中对象差别较大。相异度是根据描述对象的属性值来计算的。距离是经常采用的度量方式。聚类分析源于许多研究领域,包括数据挖掘,统计学,生物学,以及机器学习。 作为统计学的一个分支,聚类分析已经被广泛的研究了许多年,主要集中在基于距离的聚类分析。基于 k-means(k-平均值),k-medoids(k-中心点)和其他一些方法的聚类分析工具已经被加入到许多统计分析软件包或系统中,例如 S-Plu s,SPSS,以及 SAS。 CURE(Clu stering Using Representativ es)是一种针对大型数据库的高效的聚类算法。基于划分的传统的聚类算法得到的是球状的,相等大小的聚类,对异常数据比较脆弱。CURE 采用了用多个点代表一个簇的方法,可以较好的处理以上问题。并且在处理大数据量的时候采用了随机取样,分区的方法,来提高其效率,使得其可以高效的处理大量数据。 基本目标 聚类算法CURE 的算法实现。对图形进行聚类,在时间,结果方面对其性能进行评估。 算法流程 CURE 的算法在开始时,每个点都是一个簇,然后将距离最近的簇结合,一直到簇的个数为要求的K。它是一种分裂的层次聚类。算法分为以下 6步: 1)从源数据对象中抽取一个随机样本 S。 2)将样本 S 分割为一组划分。 3)对划分局部的聚类。 4)通过随机取样提出孤立点。如果一个簇增长得太慢,就去掉它。 5)对局部的簇进行聚类。 6)用相应的簇标签标记数据。 算法设计 (1)基本聚类算法 procedure cluster(S, k) /*将数据集S 聚类成为k 个簇*/ begin 1. T := build_kd_tree(S) /*对应数据集S 建立一个K-DTree T*/ 2. Q := build_heap(S) /*对应数据集S 建立一个堆Q*/ 3. while size(Q) > k do { /*聚类直至簇的个数为k */ 4. u := extract_min(Q) /*找到最近的两个簇u,v */ 5. v := u.cloest 6. delete(Q, v) 7. w := merge(u, v) /*将u,v 合并为簇w */ 8. delete_rep(T, u);delete_rep(T, v);insert_rep(T, w) 9. w.cloest := x /* x is an arbitrary cluster in Q*/ 10. for each x∈Q do{ /*调节因合并带来的T 和 Q 的变化*/ 11. if (dist(w,x) < dist(w,w.cloest)) 12. w.cloest := x 13. if x.cloest is ei...