商业数据分析2016·12·15聚类Clusters聚类52k-Means聚类5数学补充:欧氏距离欧式距离是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)
在二维和三维空间中的欧氏距离就是两点之间的实际距离
它的通用公式是:聚类5k-means人为选定一个k,然后把样本分为k类,这就是k-means,基本步骤就是:1、确定一个k;2、随机选择k个类的初始中心;3、计算样本中所有点到每个中心的距离;4、把样本中的每个点分别划归到距离它最近的中心对应的类中去;5、重新计算每个类的中心;6、重复步骤3-5,直到分类不变
聚类5聚类5k-meansk-means算法,可能会导致一些空簇,所以需要分析结果,避免这种情况的发生
虽然许多时候都能收敛到一个比较好的结果,但是也有运气不好的时候会收敛到一个让人不满意的局部最优解
有时候,因为初始点的选择不当,会使得分类结果不理想,如下面这种情况:聚类5聚类5k-means为了寻找最优解,我们可以计算类内的点到中心点的欧氏距离,使它最小化,从而找到最优解,我们称这种方法为:Enhancedk-means(增强k-means),基本步骤就是:1、按照k-means的方法完成分类;2、计算每个样本点到k个中心分别的欧氏距离d2;3、如果满足下式,则将样本Xi从类r分类下的样本变为类s的样本:4、如果多个类满足上式,则将样本Xi变为下式值最小的分类下的样本:5、重复步骤2-4,直到分类不变
MATLAB实例——P166-P1675我们用之前使用过的鸢尾花数据iris
mat进行聚类实验,Iris数据集是常用的分类实验数据集,它以鸢尾花的特征作为数据来源,由Fisher,1936收集整理
该数据集由3种不同类型的鸢尾花的50个样本数据构成
每种鸢尾花包含了4个属性:Sepal
Length(花萼长