logistic 回归介绍之三——logistic 回归的应用条件 logistic 回归与多重线性回归一样,在应用之前也是需要分析一下资料是否可以采用logistic 回归模型。并不是说因变量是分类变量我就可以直接采用logistic 回归,有些条件仍然是需要考虑的。 首要的条件应该是需要看一下自变量与因变量之间是什么样的一种关系。多重线性回归中,要求自变量与因变量符合线性关系。而 logistic 回归则不同,它要求的是自变量与logit(p)符合线性关系,所谓 logit 实际上就是ln(P/1-P)。也就是说,自变量应与ln(P/1-P)呈线性关系。当然,这种情形主要针对多分类变量和连续变量。对于二分类变量就无所谓了,因为两点永远是一条直线。 这里举一个例子。某因素 y 与自变量 x 之间关系分析,y 为二分类变量,x 为四分类变量。如果 x 的四分类直接表示为 1,2,3,4。则分析结果为 p=0.07,显示对 y 的影响在0.05水准时无统计学意义,而如果将 x 作为虚拟变量,以1 为参照,产生 x 2,x 3,x 4 三个变量,重新分析,则结果显示:x 2,x 3,x 4 的p 值分别为 0.08,0.05 和 0.03。也就是说,尽管 2 和 1 相比无统计学意义,但 3 和 1 相比,4 和 1 相比,均有统计学意义。 为什么会产生如此结果?实际上如果仔细分析一下,就可以发现,因为x 与logit(y )并不是呈线性关系。而是呈如下图的关系: 这就是导致上述差异的原因。从图中来看,x 的4 与1 相差最大,其次是2,3 与1 相差最小。实际分析结果也是如此,上述分析中,x 2,x 3,x 4 产生的危险度分别为 3.1,2.9,3.4。 因此,一开始 x 以1,2,3,4 的形式直接与y 进行分析,默认的是认为它们与logit(p)呈直线关系,而实际上并非如此,因此掩盖了部分信息,从而导致应有的差异没有被检验出来。而一旦转换为虚拟变量的形式,由于虚拟变量都是二分类的,我们不再需要考虑其与logit(p)的关系,因而显示出了更为精确的结果。 最后强调一下,如果你对自变量 x 与y 的关系不清楚,在样本含量允许的条件下,最好转换为虚拟变量的形式,这样不至于出现太大的误差。 如果你不清楚应该如何探索他们的关系,也可以采用虚拟变量的形式,比如上述 x ,如果转换的虚拟变量 x 2,x 3,x 4 他们的OR 值呈直线关系,那 x 基本上可以直接以1,2,3,4 的形式直接与y 进行分析。而我们刚才也看到了,x 2,x 3,x 4 的危险度分别为...