36. 判别分析 (一)基本原理 判别分析,是用以判别个体所属类的一种统计方法。其原理是根据已掌握的一批分类明确的样品,建立一个较好的判别函数,使得用该判别函数进行判别时错判事例最少,进而能用此判别函数对给定的一个新样品判别它来自哪个总体。 判别分析方法通常要给出一个判别指标(判别函数),同时还要指定一种判别规则。 一、距离判别法 未知总体的样品x 离哪个总体的距离最近,就判断它属于哪个总体。 1. 对于两个正态总体G1, G2 距离选用马氏(Mahalanobis)距离: d2(x, G1) = (x-μ1)T∑ 1-1(x-μ1) d2(x, G2) = (x-μ2)T∑ 2-1(x-μ2) 其中,μ1, μ2, ∑ 1, ∑ 2 分别为总体G1, G22 的均值和协差矩阵。令 W(x) = d2(x, G1) - d2(x, G2) 称为判别函数,若∑ 1=∑ 2 时,W(x)是线性函数,此时称为线性判别;若∑ 1≠∑ 2,W(x)是二次函数。 2. 多总体情况 设有m 个总体:G1, …, Gm,其均值、协差阵分别为μi, ∑ i. 对给定的样品x,按距离最近的准则对x 进行判别归类: 首先计算样品x 到m 个总体的马氏距离di2(x), 然后进行比较,把x 判归距离最小的那个总体,即若dh2(x) = min{ di2(x) | i = 1,…,m},则x∈Gh. 二、Fisher 线性函数判别法 为了方便使用,需要寻找尽量简单的判别函数,其中在 Fisher准则下的线性判别函数就是只利用总体的一、二阶矩就可求得的判别函数。 图 1 Fisher 线性判别分析示意图 下面以两个总体为例来说明 Fisher 判别的思想。 设有两个总体G1、G2,其均值分别为1 和2,协方差阵分别1和2,并假定1 = 2 = ,考虑线性组合:y = LTx。通过寻求合适的L向量,使得来自两个总体的数据间的距离较大,而来自同一个总体数据间的差异较小。为此,可以证明,当选L=c–1(1–2),其中c 0时,所得的投影即满足要求。从而称c = 1 时的线性函数: y = LTx = (1 – 2)T–1x 为Fisher 线性判别函数。其判别规则为: 其中,m 为两个总体均值在投影方向上的中点,即 三、贝叶斯判别法 设 m 个总体G1, … , Gm,其分布密度分别为f1(x), … , fm(x),各自的先验概率(可以根据经验事先给出或估出)分别为q1, … , qm,显然 当抽取了一个未知总体的样品 x,要判断它属于哪个总体,可用著名的贝叶斯公式计算 x 属于第 j 个总体的后验概率: 若 则判断 x 属于第 h ...