cure算法的实现

下载本文档

阅读 118
下载 28
格式 pdf
大小 339.84 KB
约7页
2025-01-28 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/7页

2/7页

3/7页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

文本预览下载提示常见问题

CURE 聚类算法的实现任务背景聚类（clu stering）就是将数据对象分组成为多个类或簇（clu ster），在同一簇中的对象之间具有较高的相似度，而不同的簇中对象差别较大。相异度是根据描述对象的属性值来计算的。距离是经常采用的度量方式。聚类分析源于许多研究领域，包括数据挖掘，统计学，生物学，以及机器学习。作为统计学的一个分支，聚类分析已经被广泛的研究了许多年，主要集中在基于距离的聚类分析。基于 k-means（k-平均值），k-medoids（k-中心点）和其他一些方法的聚类分析工具已经被加入到许多统计分析软件包或系统中，例如 S-Plu s，SPSS，以及 SAS。 CURE（Clu stering Using Representativ es）是一种针对大型数据库的高效的聚类算法。基于划分的传统的聚类算法得到的是球状的，相等大小的聚类，对异常数据比较脆弱。CURE 采用了用多个点代表一个簇的方法，可以较好的处理以上问题。并且在处理大数据量的时候采用了随机取样，分区的方法，来提高其效率，使得其可以高效的处理大量数据。基本目标聚类算法CURE 的算法实现。对图形进行聚类，在时间，结果方面对其性能进行评估。算法流程 CURE 的算法在开始时，每个点都是一个簇，然后将距离最近的簇结合，一直到簇的个数为要求的K。它是一种分裂的层次聚类。算法分为以下 6步： 1）从源数据对象中抽取一个随机样本 S。 2）将样本 S 分割为一组划分。 3）对划分局部的聚类。 4）通过随机取样提出孤立点。如果一个簇增长得太慢，就去掉它。 5）对局部的簇进行聚类。 6）用相应的簇标签标记数据。算法设计 (1)基本聚类算法 procedure cluster(S, k) /*将数据集S 聚类成为k 个簇*/ begin 1. T := build_kd_tree(S) /*对应数据集S 建立一个K-DTree T*/ 2. Q := build_heap(S) /*对应数据集S 建立一个堆Q*/ 3. while size(Q) > k do { /*聚类直至簇的个数为k */ 4. u := extract_min(Q) /*找到最近的两个簇u，v */ 5. v := u.cloest 6. delete(Q, v) 7. w := merge(u, v) /*将u，v 合并为簇w */ 8. delete_rep(T, u);delete_rep(T, v);insert_rep(T, w) 9. w.cloest := x /* x is an arbitrary cluster in Q*/ 10. for each x∈Q do{ /*调节因合并带来的T 和 Q 的变化*/ 11. if (dist(w,x) < dist(w,w.cloest)) 12. w.cloest := x 13. if x.cloest is ei...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

cure算法的实现

CURE 聚类算法的实现任务背景聚类（clu stering）就是将数据对象分组成为多个类或簇（clu ster），在同一簇中的对象之间具有较高的相似度，而不同的簇中对象差别较大

相异度是根据描述对象的属性值来计算的

距离是经常采用的度量方式

聚类分析源于许多研究领域，包括数据挖掘，统计学，生物学，以及机器学习

作为统计学的一个分支，聚类分析已经被广泛的研究了许多年，主要集中在基于距离的聚类分析

基于 k-means（k-平均值），k-medoids（k-中心点）和其他一些方法的聚类分析工具已经被加入到许多统计分析软件包或系统中，例如 S-Plu s，SPSS，以及 SAS

CURE（Clu stering Using Representativ es）是一种针对大型数据库的高效的聚类算法

基于划分的传统的聚类算法得到的是球状的，相等大小的聚类，对异常数据比较脆弱

CURE 采用了用多个点代表一个簇的方法，可以较好的处理以上问题

并且在处理大数据量的时候采用了随机取样，分区的方法，来提高其效率，使得其可以高效的处理大量数据

基本目标聚类算法CURE 的算法实现

对图形进行聚类，在时间，结果方面对其性能进行评估

算法流程 CURE 的算法在开始时，每个点都是一个簇，然后将距离最近的簇结合，一直到簇的个数为要求的K

它是一种分裂的层次聚类

算法分为以下 6步： 1）从源数据对象中抽取一个随机样本 S

2）将样本 S 分割为一组划分

3）对划分局部的聚类

4）通过随机取样提出孤立点

如果一个簇增长得太慢，就去掉它

5）对局部的簇进行聚类

6）用相应的簇标签标记数据

算法设计 (1)基本聚类算法 procedure cluster(S, k) /*将数据集S 聚类成为k 个簇*/ begin 1

T := build_kd_tree(S) /*对应数据集

小辰 + 关注: 实名认证
内容提供者

出售各种文档和资料

收藏店铺进入空间

cure算法的实现

cure算法的实现

您可能关注的文档

相关文档

热门下载

相关标签