Logistic 回归模型 1 Logistic 回归模型的基本知识 1.1 Logistic 模型简介 主要应用在研究某些现象发生的概率p ,比如股票涨还是跌,公司成功或失败的概率,以及讨论概率p 与那些因素有关。显然作为概率值,一定有10 p,因此很难用线性模型描述概率p 与自变量的关系,另外如果 p 接近两个极端值,此时一般方法难以较好地反映 p 的微小变化。为此在构建 p 与自变量关系的模型时,变换一下思路,不直接研究p ,而是研究p 的一个严格单调函数)( pG,并要求)( pG在p接近两端值时对其微小变化很敏感。于是Logit 变换被提出来: pppLogit1ln)( (1) 其中当 p 从10 时,)( pLogit从,这个变化范围在模型数据处理上带来很大的方便,解决了上述面临的难题。另外从函数的变形可得如下等价的公式: XTXTTeepXpppLogit11ln)( (2) 模型(2)的基本要求是,因变量(y)是个二元变量,仅取 0 或1 两个值,而因变量取 1 的概率)|1(XyP就是模型要研究的对象。而TkxxxX),,,,1(21,其中ix 表示影响 y 的第i 个因素,它可以是定性变量也可以是定量变量,Tk ),,,(10。为此模型(2)可以表述成: kxkxkxkxkkeepxxpp11011011011ln (3) 显然pyE)(,故上述模型表明)(1)(lnyEyE是kxxx,,,21的线性函数。此时我们称满足上面条件的回归方程为 Logistic 线性回归。 Logistic 线性回归的主要问题是不能用普通的回归方式来分析模型,一方面离散变量的误差形式服从伯努利分布而非正态分布,即没有正态性假设前提;二是二值变量方差不是常数,有异方差性。不同于多元线性回归的最小二乘估计法则(残差平方和最小),Logistic 变换的非线性特征采用极大似然估计的方法寻求最佳的回归系数。因此评价模型的拟合度的标准变为似然值而非离差平方和。 定义 1 称事件发生与不发生的概率比为 优势比(比数比 odds ratio 简称 OR),形式上表示为 OR=kxkxepp1101 (4) 定义 2 Logistic 回归模型是通过极大似然估计法得到的,故模型好坏的评价准则有似然值来表征,称 -2ˆln( )L 为估计值 ˆ 的拟合似然度,该值越小越好,如果模型完全拟合,则似然值ˆ( )L 为 1,而拟合似然度达到最小,值为0。其中ˆ( )lnL 表示ˆ 的对数似然函数值。 定义3 记)ˆ(Va...