电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

商业数据分析·KmeansVIP免费

商业数据分析·Kmeans_第1页
商业数据分析·Kmeans_第2页
商业数据分析·Kmeans_第3页
商业数据分析2016·12·15聚类Clusters聚类52k-Means聚类5数学补充:欧氏距离欧式距离是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。它的通用公式是:聚类5k-means人为选定一个k,然后把样本分为k类,这就是k-means,基本步骤就是:1、确定一个k;2、随机选择k个类的初始中心;3、计算样本中所有点到每个中心的距离;4、把样本中的每个点分别划归到距离它最近的中心对应的类中去;5、重新计算每个类的中心;6、重复步骤3-5,直到分类不变。聚类5聚类5k-meansk-means算法,可能会导致一些空簇,所以需要分析结果,避免这种情况的发生。虽然许多时候都能收敛到一个比较好的结果,但是也有运气不好的时候会收敛到一个让人不满意的局部最优解。有时候,因为初始点的选择不当,会使得分类结果不理想,如下面这种情况:聚类5聚类5k-means为了寻找最优解,我们可以计算类内的点到中心点的欧氏距离,使它最小化,从而找到最优解,我们称这种方法为:Enhancedk-means(增强k-means),基本步骤就是:1、按照k-means的方法完成分类;2、计算每个样本点到k个中心分别的欧氏距离d2;3、如果满足下式,则将样本Xi从类r分类下的样本变为类s的样本:4、如果多个类满足上式,则将样本Xi变为下式值最小的分类下的样本:5、重复步骤2-4,直到分类不变。MATLAB实例——P166-P1675我们用之前使用过的鸢尾花数据iris.mat进行聚类实验,Iris数据集是常用的分类实验数据集,它以鸢尾花的特征作为数据来源,由Fisher,1936收集整理。该数据集由3种不同类型的鸢尾花的50个样本数据构成。每种鸢尾花包含了4个属性:Sepal.Length(花萼长度)、Sepal.Width(花萼宽度)、Petal.Length(花瓣长度)、Petal.Width(花瓣宽度)。下面打开matlab我们进行HM实战!聚类k-means的总结5K-means是最为常用的聚类方法之一,尽管它有着很多不足,但是它有着一个很关键的优点:快!实际应用里,人们指出了很多K-means的不足。比如需要用户事先给出聚类数目k,而这个往往是很难判断的;又如K-means得到的是局域最优,跟初始给定的中心值有关,所以往往要尝试多个初始值等等。K-means算法相比起层次聚类,还有一个很大的不同,那就是它需要数据点的坐标,因为它必须要求取平均,而层次聚类实际上并不需要坐标数据,只需要知道数据点之间的距离而已。这也就是说K-means只适用于使用欧氏距离来计算数据点相似性的情况,因为如果采用非欧距离,那么也不能通过简单的平均来得到簇中心。聚类作业课后作业5.14题前半部分课本作业课后作业5.14Applyk-meansandtheagglomerativeclusteringmethodofyourchoicetotheoronsaydataset(bothclassifications),usingthecorrectnumberofknowngroups.预习预习内容1.预习5.4节。2.完成以下习题保存为txt文件,在12.22日00:00前连同上一页的课后作业打包为zip发送至助教邮箱,共占据总成绩的4%:①SC是_______的简称,中文名为______________,是由_______提出的,是一种用于______________________的算法。②简要描述SC的步骤。

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

读万卷书+ 关注
实名认证
内容提供者

各类经典PPT文档分享

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部