聚类算法比较

下载本文档

阅读 62
下载 11
格式 pdf
大小 536.14 KB
约9页
2025-03-18 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/9页

2/9页

3/9页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

文本预览下载提示常见问题

聚类算法: 1. 划分法：K-MEANS 算法、K-MEDOIDS 算法、CLARANS 算法； 1）K-means 算法：基本思想是初始随机给定 K个簇中心，按照最邻近原则把待分类样本点分到各个簇。然后按平均法重新计算各个簇的质心，从而确定新的簇心。一直迭代，直到簇心的移动距离小于某个给定的值。 K-Means聚类算法主要分为三个步骤： (1)第一步是为待聚类的点寻找聚类中心 (2)第二步是计算每个点到聚类中心的距离，将每个点聚类到离该点最近的聚类中去 (3)第三步是计算每个聚类中所有点的坐标平均值，并将这个平均值作为新的聚类中心反复执行(2)、(3)，直到聚类中心不再进行大范围移动或者聚类次数达到要求为止下图展示了对 n个样本点进行 K-means聚类的效果，这里 k取 2： (a)未聚类的初始点集 (b)随机选取两个点作为聚类中心 (c)计算每个点到聚类中心的距离，并聚类到离该点最近的聚类中去 (d)计算每个聚类中所有点的坐标平均值，并将这个平均值作为新的聚类中心 (e)重复(c),计算每个点到聚类中心的距离，并聚类到离该点最近的聚类中去 (f)重复(d),计算每个聚类中所有点的坐标平均值，并将这个平均值作为新的聚类中心优点： 1.算法快速、简单; 2.对大数据集有较高的效率并且是可伸缩性的; 3.时间复杂度近于线性，而且适合挖掘大规模数据集。缺点： 1. 在 K-means 算法中 K 是事先给定的，这个 K 值的选定是非常难以估计的。 2. 在 K-means 算法中，首先需要根据初始聚类中心来确定一个初始划分，然后对初始划分进行优化。这个初始聚类中心的选择对聚类结果有较大的影响。 3. 从 K-means 算法框架可以看出，该算法需要不断地进行样本分类调整，不断地计算调整后的新的聚类中心，因此当数据量非常大时，算法的时间开销是非常大的。 4. 产生类的大小相差不会很大，对于脏数据很敏感。 2）K-MEDOIDS（k-medoids）算法与k-means很像，不一样的地方在于中心点的选取，在K-means中，我们将中心点取为当前cluster中所有数据点的平均值，在 K-medoids算法中，我们将从当前cluster 中选取这样一个点——它到其他所有（当前cluster中的）点的距离之和最小——作为中心点。选取一个对象叫做 mediod来代替上面的中心的作用，这样的一个medoid就标识了这个类。 K-MEDODIS的具体流程如下： 1）任意选取K个对象作为medoids（O1,O2,…Oi…Ok）。 2）将余下的对象分到各个类中去（根据与medoid最相近的原则）； 3）...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

聚类算法比较

聚类算法: 1

划分法：K-MEANS 算法、K-MEDOIDS 算法、CLARANS 算法； 1）K-means 算法：基本思想是初始随机给定 K个簇中心，按照最邻近原则把待分类样本点分到各个簇

然后按平均法重新计算各个簇的质心，从而确定新的簇心

一直迭代，直到簇心的移动距离小于某个给定的值

K-Means聚类算法主要分为三个步骤： (1)第一步是为待聚类的点寻找聚类中心 (2)第二步是计算每个点到聚类中心的距离，将每个点聚类到离该点最近的聚类中去 (3)第三步是计算每个聚类中所有点的坐标平均值，并将这个平均值作为新的聚类中心反复执行(2)、(3)，直到聚类中心不再进行大范围移动或者聚类次数达到要求为止下图展示了对 n个样本点进行 K-means聚类的效果，这里 k取 2： (a)未聚类的初始点集 (b)随机选取两个点作为聚类中心 (c)计算每个点到聚类中心的距离，并聚类到离该点最近的聚类中去 (d)计算每个聚类中所有点的坐标平均值，并将这个平均值作为新的聚类中心 (e)重复(c),计算每个点到聚类中心的距离，并聚类到离该点最近的聚类中去 (f)重复(d),计算每个聚类中所有点的坐标平均值，并将这个平均值作为新的聚类中心优点： 1

算法快速、简单; 2

对大数据集有较高的效率并且是可伸缩性的; 3

时间复杂度近于线性，而且适合挖掘大规模数据集

在 K-means 算法中 K 是事先给定的，这个 K 值的选定是非常难以估计的

在 K-means 算法中，首先需要根据初始聚类中心来确定一个初始划分，然后对初始划分进行优化

这个初始聚类中心的选择对聚类结果有较大的影响

从 K-means 算法框架可以看出，该算法需要不断地进行样本分类调整，不断地计算调整后的新的聚类中心，因此当数据量非常大时，算法的时间开销是非常大的

小辰 + 关注: 实名认证
内容提供者

出售各种文档和资料

收藏店铺进入空间

聚类算法比较

聚类算法比较

您可能关注的文档

相关文档

热门下载

相关标签