判别分析(Discriminant Analy sis) 一、概述: 判别问题又称识别问题,或者归类问题
判别分析是由 Pearson于 1921年提出,1936年由 Fisher首先提出根据不同类别所提取的特征变量来定量的建立待判样品归属于哪一个已知类别的数学模型
根据对训练样本的观测值建立判别函数,借助判别函数式判断未知类别的个体
所谓训练样本由已知明确类别的个体组成,并且都完整准确地测量个体的有关的判别变量
训练样本的要求:类别明确,测量指标完整准确
一般样本含量不宜过小,但不能为追求样本含量而牺牲类别的准确,如果类别不可靠、测量值不准确,即使样本含量再大,任何统计方法语法弥补这一缺陷
判别分析的类别很多,常用的有:适用于定性指标或计数资料的有最大似然法、训练迭代法;适用于定量指标或计量资料的有:Fisher 二类判别、Bayers 多类判别以及逐步判别
半定量指标界于二者之间,可根据不同情况分别采用以上方法
类别(有的称之为总体,但应与population的区别)的含义——具有相同属性或者特征指标的个体(有的人称之为样品)的集合
如何来表征相同属性、相同的特征指标呢
同一类别的个体之间距离小,不同总体的样本之间距离大
距离是一个原则性的定义,只要满足对称性、非负性和三角不等式的函数就可以称为距 绝对距离 马氏距离:(Manhattan distance) 设有两个个体(点)X 与Y(假定为一维数据,即在数轴上)是来自均数为 ,协方差阵为 的总体(类别)A 的两个个体(点),则个体 X 与Y 的马氏距离为1TD XYXYXY( , ) () (),类似地可以定义个体 X 与总体(类别)A 的距离为1TD XAXX( , ) () () 明考斯基距离(Minkow ski distance): 明科夫斯基距离 欧几里德距离