判别分析 1.判别分析的适用条件 (1)自变量和因变量间的关系符合线性假设。 (2)因变量的取值是独立的,且必须是事先就己经确定。 (3)自变量服从多元正态分布。 (4)所有自变量在各组间方差齐,协方差矩阵也相等。 (5)自变量间不存在多重共线性。 2.违背条件时的处理方法 (1)当样本的多元正态分布假设不能满足的时候采取的措施和方法如下: <>如果数据的超平面是若干分段结构的话,采用分段判别分析。 <>如果数据满足方差和协方差的齐次性可以采用距离判别分析、经典判别分析、贝叶斯判别分析中的任何一种,因为此时三者是等价的,建议使用经典判别分析。 <>如果数据不满足方差和协方差的齐次性,则采用经典判别分析、非参数判别分析、距离判别分析,这些方法无此适用条件。 <>进行变量变换。 (2)方差和协方差的齐次性不能满足的时候可以采取的措施如下: <>增加样本,这有时可以使其影响减小。 <>慎重的进行变量变换。 <>采用经典判别分析、非参数判别分析、距离判别分析,这些方法无此适用条件。 <>在合乎总体实际情况的前提下,保证各个分组的样本量一样,判别分析中分组之间样本量一样可以带来以下几个好处:使得结果与方差齐次性假设不会偏离得太大;F检验时第二类错误(实际上为虚假的条件下正确的拒绝了原假设的概率)得到减小;使得均值更加容易比较和检验。 <>要是样本服从多元正态分布,采用二次判别,但是应该注意到二次判别分析没有计算判错率和统计检验的公式。 (3)存在多重共线性时可以采取的措施如下: <>增加样本量。 <>使用逐步判别分析。 <>采用岭判别分析。 <>对自变量进行主成分分析,用因子代替自变量进行判别分析。 <>通过相关矩阵结合实际的理论知识删去某些产生共线性的自变量。显然,上述措施和线性回归中对共线性的处理方式是非常类似的。 (4)当线性假设被违反的时候可以采取的措施如下: <>采用二次判别分析。 <>K最近邻判别分析或核密度判别分析两种非参数判别分析。 <>离散型判别分析或混合型判别分析。 3.典型判别分析的基本原理 试图找到一个由原始自变量组成的线性函数使得组间差异和组内差异的比值最大化。所谓 Fisher判别法,就是一种先投影的方法。考虑只有两个(预测)变量的判别分析问题。假定这里只有两类。数据中的每个观测值是二维空间的一个点。见图(下一张幻灯片)。这里只有两种已知类型的训练样本。其中一类有38个点(用“o”表示),另一类有44个点(用“*”表示)。按照原来的...