LDA: LDA 的全称是Linear Discriminant Analy sis(线性判别分析),是一种supervised learning
有些资料上也称为是Fisher’s Linear Discriminant,因为它被Ronald Fisher 发明自1936 年,Discriminant 这次词我个人的理解是,一个模型,不需要去通过概率的方法来训练、预测数据,比如说各种贝叶斯方法,就需要获取数据的先验、后验概率等等
LDA是在目前机器学习、数据挖掘领域经典且热门的一个算法,据我所知,百度的商务搜索部里面就用了不少这方面的算法
LDA 的原理是,将带上标签的数据(点),通过投影的方法,投影到维度更低的空间中,使得投影后的点,会形成按类别区分,一簇一簇的情况,相同类别的点,将会在投影后的空间中更接近
要说明白 LDA,首先得弄明白线性分类器(Linear Classifier):因为LDA 是一种线性分类器
对于 K-分类的一个分类问题,会有K 个线性函数: 当满足条件:对于所有的j,都有Yk > Yj,的时候,我们就说 x 属于类别k
对于每一个分类,都有一个公式去算一个分值,在所有的公式得到的分值中,找一个最大的,就是所属的分类了
上式实际上就是一种投影,是将一个高维的点投影到一条高维的直线上,LDA 最求的目标是,给出一个标注了类别的数据集,投影到了一条直线之后,能够使得点尽量的按类别区分开,当 k=2 即二分类问题的时候,如下图所示: 红色的方形的点为0 类的原始点、蓝色的方形点为1 类的原始点,经过原点的那条线就是投影的直线,从图上可以清楚的看到,红色的点和蓝色的点被原点明显的分开了,这个数据只是随便画的,如果在高维的情况下,看起来会更好一点
下面我来推导一下二分类 LDA问题的公式: 假设用来区分二分类的直线(投影函数)为: LDA 分类的一个目