KMEANS算法(K均值算法)

下载本文档

阅读 140
下载 15
格式 pdf
大小 614.95 KB
约11页
2025-01-31 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/11页

2/11页

3/11页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

/11

文本预览下载提示常见问题

k-means 算法 * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 一．算法简介 k-means算法，也被称为 k-平均或 k-均值，是一种得到最广泛使用的聚类算法。它是将各个聚类子集内的所有数据样本的均值作为该聚类的代表点，算法的主要思想是通过迭代过程把数据集划分为不同的类别，使得评价聚类性能的准则函数达到最优，从而使生成的每个聚类内紧凑，类间独立。这一算法不适合处理离散型属性，但是对于连续型具有较好的聚类效果。二．划分聚类方法对数据集进行聚类时包括如下三个要点：（1）选定某种距离作为数据样本间的相似性度量 k-means聚类算法不适合处理离散型属性，对连续型属性比较适合。因此在计算数据样本之间的距离时，可以根据实际需要选择欧式距离、曼哈顿距离或者明考斯距离中的一种来作为算法的相似性度量，其中最常用的是欧式距离。下面我给大家具体介绍一下欧式距离。假设给定的数据集，X中的样本用 d个描述属性 A1,A2„Ad来表示，并且 d个描述属性都是连续型属性。数据样本 xi=(xi1,xi2,„xid), xj=(xj1,xj2,„xjd)其中，xi1,xi2,„xid和 xj1,xj2,„xjd分别是样本 xi和 xj对应 d个描述属性 A1,A2,„Ad的具体取值。样本 xi和 xj之间的相似度通常用它们之间的距离 d(xi,xj)来表示，距离越小，样本 xi和 xj越相似，差异度越小；距离越大，样本 xi和 xj越不相似，差异度越大。欧式距离公式如下：（2）选择评价聚类性能的准则函数 |1,2,...,mXxmtotal21,dijikjkkd xxxxk-means聚类算法使用误差平方和准则函数来评价聚类性能。给定数据集 X，其中只包含描述属性，不包含类别属性。假设 X包含 k个聚类子集 X1,X2,„XK；各个聚类子集中的样本数量分别为 n1，n2,„,nk;各个聚类子集的均值代表点（也称聚类中心）分别为 m1，m2,„,mk。则误差平方和准则函数公式为：（3）相似度的计算根据一个簇中对象的平均值来进行。 1) 将所有对象随机分配到 k个非空的簇中。 2) 计算每个簇的平均值，并用该平均值代表相应的簇。 3) 根据每个对象与各个簇中心的距离，分配给最近的簇。 4) 然后转 2），重新计算每个簇的平均值。这个过程不断重复直到满足某个准则函数才停止。...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容