S100501179 计算机系统结构 连忠林 weka 中添加FuzzyCMeans 算法 WEKA 作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化,通过 myeclipse 平台向 weka 中添加算法接口。 FuzzyCMeans 算法是一种基于划分的聚类算法,它的思想就是使得被划分到同一簇的对象之间相似度最大,而不同簇之间的相似度最小。模糊 C 均值算法是普通 C 均值算法的改进,普通 C 均值算法对于数据的划分是硬性的,而 FCM 则是一种柔性的模糊划分。 一、模糊 C 均值聚类 模糊 C 均值聚类(FCM),即众所周知的模糊 ISODATA,是用隶属度确定每个数据点属于某个聚类的程度的一种聚类算法。1973 年,Bezdek 提出了该算法,作为早期硬 C 均值聚类(HCM)方法的一种改进。 FCM 把 n 个向量xi(i=1,2,…,n)分为c 个模糊组,并求每组的聚类中心,使得非相似性指标的价值函数达到最小。FCM 与 HCM 的主要区别在于 FCM 用模糊划分,使得每个给定数据点用值在 0,1 间的隶属度来确定其属于各个组的程度。与引入模糊划分相适应,隶属矩阵 U 允许有取值在 0,1 间的元素。不过,加上归一化规定,一个数据集的隶属度的和总等于 1: ciijnju1,...,1,1 (6.9) 那么,FCM 的价值函数(或目标函数)就是式(6.2)的一般化形式: cinjijmijciicduJccUJ1211),...,,(, (6.10) 这里 uij 介于 0,1 间;ci 为模糊组 I 的聚类中心,dij=||ci-xj||为第 I 个聚类中心与第 j 个数据点间的欧几里德距离;且 ,1m是一个加权指数。 构造如下新的目标函数,可求得使(6.10)式达到最小值的必要条件: njciijjcinjijmijnjciijjcncuduuccUJccUJ111211111)1()1(),...,,(),...,,,...,,( (6.11) 这里j,j=1 到 n,是(6.9)式的n 个约束式的拉格朗日乘子。对所有输入参量求导,使式(6.10)达到最小的必要条件为: njmijnjjmijiuxuc11 (6.12) 和 ckmkjijijddu1)1/(21 (6.13) 由上述两个必要条件,模糊C 均值聚类算法是一个简单的迭代过程。在批处理方式运行时,FCM 用下列步骤确定聚类中心ci 和隶属矩阵U[1]: 步骤1:用值在0,1 间的随机数初始化隶属矩阵U,使其满足式(6.9)中的约束条...