rapidminer-k-means聚类、辨别分析v1VIP免费

下载本文档

阅读 167
下载 6
格式 pdf
大小 525.61 KB
约18页
2024-11-11 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/18页

2/18页

3/18页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

/18

文本预览下载提示常见问题

v1.0可编辑可修改195195第9章K-Means聚类、辨别分析9.1理解聚类分析餐饮企业经常会碰到这样的问题：1）如何通过餐饮客户消费行为的测量，进一步评判餐饮客户的价值和对餐饮客户进行细分，找到有价值的客户群和需关注的客户群2）如何合理对菜品进行分析，以便区分哪些菜品畅销毛利又高，哪些菜品滞销毛利又低餐饮企业遇到的这些问题，可以通过聚类分析解决。9.1.1常用聚类分析算法与分类不同，聚类分析是在没有给定划分类别的情况下，根据数据相似度进行样本分组的一种方法。与分类模型需要使用有类标记样本构成的训练数据不同，聚类模型可以建立在无类标记的数据上，是一种非监督的学习算法。聚类的输入是一组未被标记的样本，聚类根据数据自身的距离或相似度将他们划分为若干组，划分的原则是组内样本最小化而组间（外部）距离最大化，如错误!未找到引用源。所示。图9-1聚类分析建模原理常用聚类方法见错误!未找到引用源。。表9-1常用聚类方法v1.0可编辑可修改196196类别包括的主要算法划分（分裂）方法K-Means算法（K-平均）、K-MEDOIDS算法（K-中心点）、CLARANS算法（基于选择的算法）层次分析方法BIRCH算法（平衡迭代规约和聚类）、CURE算法（代表点聚类）、CHAMELEON算法（动态模型）基于密度的方法DBSCAN算法（基于高密度连接区域）、DENCLUE算法（密度分布函数）、OPTICS算法（对象排序识别）基于网格的方法STING算法（统计信息网络）、CLIOUE算法（聚类高维空间）、WAVE-CLUSTER算法（小波变换）基于模型的方法统计学方法、神经网络方法常用聚类算法见错误!未找到引用源。2。表9-2常用聚类分析算法算法名称算法描述K-MeansK-均值聚类也叫快速聚类法，在最小化误差函数的基础上将数据划分为预定的类数K。该算法原理简单并便于处理大量数据。K-中心点K-均值算法对孤立点的敏感性，K-中心点算法不采用簇中对象的平均值作为簇中心，而选用簇中离平均值最近的对象作为簇中心。系统聚类系统聚类也叫多层次聚类，分类的单位由高到低呈树形结构，且所处的位置越低，其所包含的对象就越少，但这些对象间的共同特征越多。该聚类方法只适合在小数据量的时候使用，数据量大的时候速度会非常慢。9.1.2K-Means聚类算法K-Means算法是典型的基于距离的非层次聚类算法，在最小化误差函数的基础上将数据划分为预定的类数K，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。1.算法过程v1.0可编辑可修改1971971）从N个样本数据中随机选取K个对象作为初始的聚类中心；2）分别计算每个样本到各个聚类中心的距离，将对象分配到距离最近的聚类中；3）所有对象分配完成后，重新计算K个聚类的中心；4）与前一次计算得到的K个聚类中心比较，如果聚类中心发生变化，转2)，否则转5)；5）当质心不发生变化时停止并输出聚类结果。聚类的结果可能依赖于初始聚类中心的随机选择，可能使得结果严重偏离全局最优分类。实践中，为了得到较好的结果，通常以不同的初始聚类中心，多次运行K-Means算法。在所有对象分配完成后，重新计算K个聚类的中心时，对于连续数据，聚类中心取该簇的均值，但是当样本的某些属性是分类变量时，均值可能无定义，可以使用K-众数方法。2.数据类型与相似性的度量（1）连续属性对于连续属性，要先对各属性值进行零-均值规范，再进行距离的计算。K-Means聚类算法中，一般需要度量样本之间的距离、样本与簇之间的距离以及簇与簇之间的距离。度量样本之间的相似性最常用的是欧几里得距离、曼哈顿距离和闵可夫斯基距离；样本与簇之间的距离可以用样本到簇中心的距离(,)idex；簇与簇之间的距离可以用簇中心的距离(,)ijdee。用p个属性来表示n个样本的数据矩阵如下：1111pnnpxxxx欧几里得距离2221122(,)()+()++()ijijipjpdijxxxxxx(9-1)曼哈顿距离1122(,)||+||++||ijijipjpdijxxxxxx(9-2)闵可夫斯基距离v1.0可编辑可修改1981981122(,)|(|)+(||)++(||)qqqqijijipjpdijxxxxxx(9-3)q为正整数，=1q时即为曼哈顿距离；=2q时即为欧几里得距离。（2）文档数据对于文档数据使用余弦相似性度量，先将文档数据整理成文档—词矩阵格式，如错误!未找到引用源。。表9-3文档—词...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

rapidminer-k-means聚类、辨别分析v1

0可编辑可修改195195第9章K-Means聚类、辨别分析9

1理解聚类分析餐饮企业经常会碰到这样的问题：1）如何通过餐饮客户消费行为的测量，进一步评判餐饮客户的价值和对餐饮客户进行细分，找到有价值的客户群和需关注的客户群2）如何合理对菜品进行分析，以便区分哪些菜品畅销毛利又高，哪些菜品滞销毛利又低餐饮企业遇到的这些问题，可以通过聚类分析解决

1常用聚类分析算法与分类不同，聚类分析是在没有给定划分类别的情况下，根据数据相似度进行样本分组的一种方法

与分类模型需要使用有类标记样本构成的训练数据不同，聚类模型可以建立在无类标记的数据上，是一种非监督的学习算法

聚类的输入是一组未被标记的样本，聚类根据数据自身的距离或相似度将他们划分为若干组，划分的原则是组内样本最小化而组间（外部）距离最大化，如错误

未找到引用源

图9-1聚类分析建模原理常用聚类方法见错误

未找到引用源

表9-1常用聚类方法v1

0可编辑可修改196196类别包括的主要算法划分（分裂）方法K-Means算法（K-平均）、K-MEDOIDS算法（K-中心点）、CLARANS算法（基于选择的算法）层次分析方法BIRCH算法（平衡迭代规约和聚类）、CURE算法（代表点聚类）、CHAMELEON算法（动态模型）基于密度的方法DBSCAN算法（基于高密度连接区域）、DENCLUE算法（密度分布函数）、OPTICS算法（对象排序识别）基于网格的方法STING算法（统计信息网络）、CLIOUE算法（聚类高维空间）、WAVE-CLUSTER算法（小波变换）基于模型的方法统计学方法、神经网络方法常用聚类算法见错误

未找到引用源

表9-2常用聚类分析算法算法名称算法描述K-MeansK-均值聚类也叫快速聚类法，在最小化误差函数的基础上将数据划分为预定的类数K

该算法原理简单并便于处理大量数据

K-中心点K

爱的疯狂 + 关注: 实名认证
内容提供者

该用户很懒，什么也没介绍

收藏店铺进入空间

rapidminer-k-means聚类、辨别分析v1VIP免费

rapidminer-k-means聚类、辨别分析v1

您可能关注的文档

相关文档

热门下载

相关标签