SAS学习系列35.聚类分析VIP免费

下载本文档

阅读 197
下载 5
格式 pdf
大小 1.97 MB
约30页
2024-11-30 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/30页

2/30页

3/30页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

/30

文本预览下载提示常见问题

35. 聚类分析（一）概述聚类分析，相当于“物以类聚”，用于对事物的类别面貌尚不清楚，甚至在事前连总共有几类都不能确定的情况下对数据进行分类。而判别分析，必须事先知道各种判别的类型和数目，并且要有一批来自各判别类型的样本，才能建立判别函数来对未知属性的样本进行判别和归类。聚类分析是把分类对象按一定规则分成组或类，这些组或类不是事先给定的而是根据数据特征而定的。在同类的对象在某种意义上倾向于彼此相似，而在不同类里的这些对象倾向于不相似。根据这种相似性的不同定义，聚类分析也有不同的方法。聚类分析分为：对样品的聚类，对变量的聚类。样品聚类：其统计指标是类与类之间距离，把每一个样品看成空间中的一个点，用某种原则规定类与类之间的距离，将距离近的点聚合成一类，距离远的点聚合成另一类。变量聚类：其统计指标是相似系数，将比较相似的变量归为一类，而把不怎么相似的变量归为另一类，用它可以把变量的亲疏关系直观地表示出来。（二）原理一、距离和相似系数 1 . 距离设有n 组样品，每组样品有p 个变量的数据如下：变量样品 V1 V2 … Vp X1 x11 x12 … x1p X2 x21 x22 … x2p … … … … … Xn xn1 xn2 … xnp 例如，Xi 到Xj 的闵科夫斯基距离定义为： 11||, 1,pqqijikjkkdxxi jn q=2 时为欧几里得距离；还有马氏距离： dij = (Xi-Xj)TS-1(Xi-Xj) 其中，Xi=(xi1, … , xip )，S-1为n 个样品的p×p 的协方差矩阵的逆矩阵。注：马氏距离考虑了观测变量之间的相关性和变异性（不再受各指标量纲的影响）。距离选择的基本原则：（1）要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空间距离概念。马氏距离有消除量纲影响的作用。（2）要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析之前已经对变量作了标准化处理，则通常就可采用欧氏距离。（3）应根据研究对象的特点不同做出具体分折。实际中，聚类分析前不妨试探性地多选择几个距离公式分别进行聚类，然后对聚类分析的结果进行对比分析，以确定最合适的距离测度方法。 2 . 相似系数变量间的相似性，可以从它们的方向趋同性或“相关性”进行考察，从而得到“夹角余弦法”和“相关系数”两种度量方法。（1）夹角余弦 Xi=(xi1, … , xip )和Xj 作为 p 维向量，按通常内积中...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

SAS学习系列35.聚类分析

您可能关注的文档

小辰 + 关注: 实名认证
内容提供者

出售各种文档和资料

收藏店铺进入空间

SAS学习系列35.聚类分析VIP免费

SAS学习系列35.聚类分析

您可能关注的文档

相关文档

热门下载

相关标签