虚拟变量(dummyvariable)在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响
例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响
这些因素也应该包括在模型中
由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0
这种变量称作虚拟变量,用D表示
虚拟变量应用于模型中,对其回归系数的估计与检验方法与定量变量相同
1.截距移动设有模型,yt=0+1xt+2D+ut,其中yt,xt为定量变量;D为定性变量
当D=0或1时,上述模型可表达为,0+1xt+ut,(D=0)ytD=1yt=0+2D=0(0+2)+1xt+ut,(D=1)0xtD=1或0表示某种特征的有无
反映在数学上是截距不同的两个函数
若2显著不为零,说明截距不同;若2为零,说明这种分类无显著性差异
例:中国成年人体重y(kg)与身高x(cm)的回归关系如下:–105+xD=1(男)y=-100+x-5D=–100+xD=0(女)注意:①若定性变量含有m个类别,应引入m-1个虚拟变量,否则会导致多重共线性,称作虚拟变量陷阱(dummyvariabletrap)
②关于定性变量中的哪个类别取0,哪个类别取1,是任意的,不影响检验结果
③定性变量中取值为0所对应的类别称作基础类别(basecategory)
④对于多于两个类别的定性变量可采用设一个虚拟变量而对不同类别采取赋值不同的方法处理
如:1(大学)D=0(中学)-1(小学)
2.斜率变化以上只考虑定性变量影响截距,未考虑影响斜率,即回归系数的变化
当需要考虑时,可建立如下模型:yt=0+1xt+2D+3xtD+ut,其中xt为定量变量;D为定性变量
当D=0或1时,上述模型可表达为,(0+2)+(1+3)xt+ut,(D=1)ytD=1yt=0+