第二节 模糊聚类分析方法 在科学技术、经济管理中常常要按一定的标准(相似程度或亲疏关系)进行分类
例如,根据生物的某些性状可对生物分类,根据土壤的性质可对土壤分类等
对所讨论的事物按一定标准进行分类的数学方法称为聚类分析,它是多元统计“物以类聚”的一种分类方法
由于科学技术、经济管理中的分类界限往往不分明,因此采纳模糊聚类方法通常比较符合实际
一、模糊聚类分析的一般步骤1、第一步:数据标准化[9](1) 数据矩阵 设论域为被分类对象,每个对象又有个指标表示其性状,即 ,于是,得到原始数据矩阵为
其中表示第个分类对象的第个指标的原始数据
(2) 数据标准化 在实际问题中,不同的数据一般有不同的量纲,为了使不同的量纲也能进行比较,通常需要对数据做适当的变换
但是,即使这样,得到的数据也不一定在区间上
因此,这里说的数据标准化,就是要根据模糊矩阵的要求,将数据压缩到区间上
通常有以下几种变换:① 平移·标准差变换 其中 ,
经过变换后,每个变量的均值为 0,标准差为 1,且消除了量纲的影响
但是,再用得到的还不一定在区间上
② 平移·极差变换 ,显然有,而且也消除了量纲的影响
③ 对数变换 取对数以缩小变量间的数量级
2、第二步:标定(建立模糊相似矩阵) 设论域,,依照传统聚类方法确定相似系数,建立模糊相似矩阵,与的相似程度
确定的方法主要借用传统聚类的相似系数法、距离法以及其他方法
具体用什么方法,可根据问题的性质,选取下列公式之一计算
(1) 相似系数法① 夹角余弦法
② 最大最小法
③ 算术平均最小法
④ 几何平均最小法
以上 3 种方法中要求,否则也要做适当变换
⑤ 数量积法 ,其中
⑥ 相关系数法 ,其中 ,
⑦ 指数相似系数法 ,其中 ,而
(2) 距离法① 直接距离法 ,其中 为适当选取的参数,使得,表示他们之间的距离
常常用的距离有● 海明距离