第10章 含定性变量的回归模型 10
1 一个学生使用含有季节定性自变量的回归模型,对春夏秋冬四个季节引入4个0-1型自变量,用SPSS软件计算的结果中总是自动删除了其中的一个自变量,他为此感到困惑不解
出现这种情况的原因是什么
答:假如这个含有季节定性自变量的回归模型为: 其中含有k个定量变量,记为xi
对春夏秋冬四个季节引入4个0-1型自变量,记为Di,只取了6个观测值,其中春季与夏季取了两次,秋、冬各取到一次观测值,则样本设计矩阵为: 显然,(X ,D )中的第1 列可表示成后 4 列的线性组合,从而(X ,D )不满秩,参数无法唯一求出
这就是所谓的“虚拟变量陷井”,应避免
当某自变量xj对其余 p-1个自变量的复判定系数2jR 超过一定界限时,SPSS软件将拒绝这个自变量xj进入回归模型
称 Tolj=1-2jR 为自变量xj的容忍度(Tolerance),SPSS软件的默认容忍度为0
也就是说,当2jR >0
9999时,自变量xj将被自动拒绝在回归方程之外,除非我们修改容忍度的默认值
而在这个模型中出现了完全共线性,所以 SPSS软件计算的结果中总是自动删除了其中的一个定性自变量
2对自变量中含有定性变量的问题,为什么不对同一属性分别建立回归模型,而采取设虚拟变量的方法建立回归模型
答:原因有两个,以例 10
一是因为模型假设对每类家庭具有相同的斜率和误差方差,把两类家庭放在一起可以对公共斜率做出最佳估计;二是对于其ttttktkttDDDXXY332211110000110010110001010010010100011)(616515414313212111kkkkkkXXXXXXXXXXXXDX ,k