基于互信息的特征选择 1 . 模型 定义D1 病集S 由有关心脏病病种iX (i=1,2,… ,n )组成,令患者的疾病信息熵1-2为: )(1lo g)()(1iniiXPXPXH (1) 显然疾病信息熵具有Shan n o n 信息熵的性质,反映了临床中具体病人的客观信息及实际医疗干预过程中所表现的信息在总体特征上的平均不确定性. 定义D2:一个诊断病例库可以表示为关于病例特征的矩阵形式 nmijxCasebase][ (2) 其中,ijx — 病例库中第 j 个病例的第i 个属性值; m— 病例特征数量; n— 病例库规模; 定义D3:一个信息系统(IS)可以表达为 ,,,rrfRIU R V f (3) 其中,U 是对象的非空有限集合, R 是属性的非空有限集合,rr RVV是属性值的集合,Vr 表示了属性任意 rR时的属性值范围,:rfURV 是一个信息函数,它指定U 中每一个对象 x 的属性值. 当 R 中的属性集可进一步分解为条件属性集合 C 和决策属性集合 D,且满足,RCD CD 时,信息系统(IS)称为决策系统(DS)3. ai 为某一条件属性,则决策属性D 对某一条件属性ai 的依赖程度可以利用下式计算4-5: 1 马笑潇, 黄席樾, 等. 基于信息熵的诊断过程认知信息流分析[J]. 重庆大学学报:自然科学版, 2002,25(5):25-28. 2 王园, 吉国力, 魏磊. 信息熵在临床定量诊断分析中的研究及应用 [J]. 厦门大学学报:自然科学版, 2004,43(B08):353-356. 3 张文宇. 数据挖掘与粗糙集方法[M]. 西安电子科技大学出版社, 2007: 49. 4 屈利, 苑津莎, 李丽. 基于事例推理的电力系统短期负荷预测[J]. 电力科学与工程, 2008,24(2):59-63. (4) 式中,RC、RD 分别表示条件属性集合C 和策属性集合D 在论域上的等价关系.()DCRH R表示RD 相对于RC 的条件熵. ( ,)iI a D 的值越大,则条件属性ai对决策属性D的重要性越大.如果(,)0iI a D ,则说明ai对于D 不起作用,可以删除.在基于属性信息增益的约简方法中,计算案例库属性集的每个属性的信息增益,并约定属性的信息增益大于某个阈值时就将该属性归入最优属性子集,否则弃用属性. 1.3 基于互信息的特征选择6: 三种经典的基于互信息的特征选择算法,分别为信息增益、互信息和交叉熵,以及于互信息最大化的特征选择算法7。 结合互信息的计算公式可知,信息增益方法计算出的结果也是一种互信息。若将互信息看成两个随机变量之间的关系,则信息增益表...