LDA 算法入门 一.LDA 算法概述: 线性判别式分析(Linear Discriminant Analy sis, LDA),也叫做Fisher 线性判别(Fisher Linear Discriminant ,FLD),是模式识别的经典算法,它是在1996 年由Belhu meu r 引入模式识别和人工智能领域的。线性鉴别分析的基本思想是将高维的模式样本投影到最佳鉴别矢量空间,以达到抽取分类信息和压缩特征空间维数的效果,投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离,即模式在该空间中有最佳的可分离性。因此,它是一种有效的特征抽取方法。使用这种方法能够使投影后模式样本的类间散布矩阵最大,并且同时类内散布矩阵最小。就是说,它能够保证投影后模式样本在新的空间中有最小的类内距离和最大的类间距离,即模式在该空间中有最佳的可分离性。 二. LDA 假设以及符号说明: 假设对于一个nR 空间有 m个样本分别为12,,mx xx ,即每个 x是一个n行的矩 阵 ,其 中in 表 示 属 第 i 类 的样 本 个 数 ,假 设 一共 有 c 个 类 ,则12icnnnnm。 bS : 类间离散度矩阵 wS :类内离散度矩阵 in :属于i 类的样本个数 ix:第i 个样本 u :所有样本的均值 iu :类i 的样本均值 三. 公式推导,算法形式化描述 根据符号说明可得类i 的样本均值为: 1ix classiiuxn (1 .1 ) 同理我们也可以得到总体样本均值: 11miiuxm (1 .2 ) 根据类间离散度矩阵和类内离散度矩阵定义,可以得到如下式子: 1cTbiiiiSn uuuu (1 .3 ) 1kcTwikikix classiSuxux (1 .4 ) 当然还有另一种类间类内的离散度矩阵表达方式: 1cTbiiiSP iuuuu (1 .5 ) 11(i)(i)E|kcTwikikix classiicTiiiPSuxuxnPux uxx classi (1 .6 ) 其中 P i 是指i 类样本的先验概率,即样本中属于i 类的概率 inP im,把 P i 代入第二组式子中,我们可以发现第一组式子只是比第二组式子都少乘了1m ,我们将在稍后进行讨论,其实对于乘不乘该 1m ,对于算法本身并没有影响,现在我们分析一下算法的思想, 我们可以知道矩阵Tiiuuuu的实际意义是一个协方差矩阵,这个矩阵所刻画的是该类与样本总体之间的关系,其中该矩阵对角线上的函数所代表的是该类相对样本总体的...