下载后可任意编辑第五章 虚拟与离散变量回归模型前面所讨论的回归模型,其变量都是在取一些实际的数值,一般是连续的。实际工作中常常遇到变量取离散数值情形,它的回归模型需要给予特别的考虑。在经济分析中还常常遇到因变量不是数值,比如买与不买,升与降,有与无等。这些选择可以给予一个虚拟变量并赋以数值代表。这样的回归当然就更有特色了。本章就讨论这一类回归模型。第一节 虚拟变量作自变量的模型在回归模型中,因变量往往不仅受到那些取实际数值的自变量(如价格、工资收入、产量、温度、距离、重量等等)的影响,而且受到一些不取实际数值的自变量(如性别、国籍、种族、颜色、学位、地震、罢工、政治动乱、政府更叠等等)的影响。要在模型中反映这种影响,可以引进虚拟变量,人为给予这些因素赋以一定数值。假如某因素只有二种选择(如性别),可以引进虚拟变量Di=¿{1 i第 个样本来自男性¿¿¿¿当然也可以给 Di赋值(1,-1)或(1,2),怎样赋值要看实际问题表示与计算方便。假如某因素有多项选择,如学位,你可以引进虚拟变量Di=¿{1 学士¿{2 硕士¿¿¿¿等等。我们先考虑虚拟变量在模型中作加项,再考虑作乘项。 一、虚拟变量作加项,工资性别差异设对某种职业者的工资采集了 10 个样本,列于下表,工资单位略去,性别栏中 1 表示男性,0 表示女性。表 5.1.1序号12345678910工资22.019.018.021.718.521.020.517.017.521.2性别10010110011下载后可任意编辑我们以性别为自变量建立回归模型Y i=β0+β1 Di+εi(5.1.1)对于表中资料回归得Y i=18.00+3.28 Di它表示,女性的平均工资为 18,男性的平均工资为 18+3.28=21.28。由于回归系数 β1的 t 统计量为 7.44,远大于临界值 0.44,非常显著,故认为该项工作男女工资存在差别。一般地,对模型(5.1.1)E(Y i|Di=0)=β0(5.1.2)E(Y i|Di=1)=β0+β1(5.1.3)若 β1显著性检验通过,应认为 Di的属性集合存在显著差别。上面的模型除了考虑性别外,没有考虑任何其它因素。假如考虑其它因素对工资的影响 ,比如工龄,可以取实际数值,以 X 表示,则有模型Y i=β0+β1 Di+β2 Xi+εi (5.1.4)此时E(Y i|Xi,Di=0)=β0+ β2 Xi (5.1.5)E(Y i|Xi,Di=1)=( β0+β1)+β2 Xi (5.1.6)假如系数 β1是统计显著的,表示工资还是存在性别差异。假如某个因素有 3 个属性,能不能用这种两项选择的开关变量表示呢?可以使用两个开关变量。比如学位分 3 个等级:学士,...