第七章回归分析6—罗吉斯蒂克回归回归分析的类型因变量与自变量都是定量变量的回归分析——即我们常做的回归分析因变量是定量变量,自变量中有定性变量的回归分析—即含有哑变量的回归分析因变量是定性变量的回归分析—Logistic回归分析因变量是定性变量的回归分析—Logistic回归分析从多元线性回归到Logistic回归例7
4这是200个不同年龄和性别的人对某项服务产品的认可的数据(logi
其中:年龄是连续变量,性别是有男和女(分别用1和0表示)两个水平的定性变量,而变量“观点”则为包含认可(用1表示)和不认可(用0表示)两个水平的定性变量
ÄêÁäºÍ¹ÛµãµÄÉ¢µãͼÄêÁä8070605040302010¹Ûµã£¨0ΪÈϿɣ¬1Ϊ²»ÈϿɣ©1
2从这张图可以看出什么呢
ÐÔ±ð£¨0:Å®£¬1:ÄУ©1
00Count120100806040200OPINION
00从这张图又可以看出什么呢
从多元线性回归到Logistic回归这里观点是因变量,只有两个值;所以可以把它看作成功概率为p的Bernoulli试验的结果
但是和单纯的Bernoulli试验不同,这里的概率p为年龄和性别的函数
必须应用Logistic回归
多元线性回归不能应用于定性因变量的原因首先,多元线性回归中使用定性因变量严重违反本身假设条件,即:因变量只能取两个值时,对于任何给定的自变量值,e本身也只能取两个值
这必然会违背线性回归中关于误差项e的假设条件
其次,线性概率概型及其问题:由于因变量只有两个值;所以可以把它看作成功概率p,取值范围必然限制在0—1的区间中,然而线性回归方程不能做到
另外概率发生的情况也不是线性的
Logistic函数Logistic的概率函数定义为:我们将多元线性组