Logistic 回归模型 1 Logistic 回归模型的基本知识 1
1 Logistic 模型简介 主要应用在研究某些现象发生的概率p ,比如股票涨还是跌,公司成功或失败的概率,以及讨论概率p 与那些因素有关
显然作为概率值,一定有10 p,因此很难用线性模型描述概率p 与自变量的关系,另外如果 p 接近两个极端值,此时一般方法难以较好地反映 p 的微小变化
为此在构建 p 与自变量关系的模型时,变换一下思路,不直接研究p ,而是研究p 的一个严格单调函数)( pG,并要求)( pG在p接近两端值时对其微小变化很敏感
于是Logit 变换被提出来: pppLogit1ln)( (1) 其中当 p 从10 时,)( pLogit从,这个变化范围在模型数据处理上带来很大的方便,解决了上述面临的难题
另外从函数的变形可得如下等价的公式: XTXTTeepXpppLogit11ln)( (2) 模型(2)的基本要求是,因变量(y)是个二元变量,仅取 0 或1 两个值,而因变量取 1 的概率)|1(XyP就是模型要研究的对象
而TkxxxX),,,,1(21,其中ix 表示影响 y 的第i 个因素,它可以是定性变量也可以是定量变量,Tk ),,,(10
为此模型(2)可以表述成: kxkxkxkxkkeepxxpp11011011011ln (3) 显然pyE)(,故上述模型表明)(1)(lnyEyE是kxxx,,,21的线性函数
此时我们称满足上面条件的回归方程为 Logistic 线性回归
Logistic 线性回归的主要问题是不能用普通的回归方式来分析模型,一方面离散变量的误差形式服从伯努利分布而非正态分布,即没有正态性假设前提;二是二值变量方差不是常数,有