SAS 第三十三课逐步回归分析(30 页)Good is good, but better carries it
精益求精,善益求善
第三十三课 逐步回归分析壱、 逐步回归分析在一个多元线性回归模型中,并不是所有的自变量都与因变量有显著关系,有时有些自变量的作用可以忽略
这就产生了怎样从大量可能有关的自变量中选择出对因变量有显著影响的部分自变量的问题
在可能自变量的整个集合有 40 到 60 个,甚至更多的自变量的那些情况下,使用“最优”子集算法可能并不行得通
那么,逐步产生回归模型要含有的 X 变量子集的自动搜索方法,可能是有效的
逐步回归方法可能是应用最广泛的自动搜索方法
这是在求适度“好”的自变量子集时,同所有可能回归的方法比较,为节约计算工作量而产生的
本质上说,这种方法在每一步增加或剔除一个 X 变量时,产生一系列回归模型
增加或剔除一个 X 变量的准则,可以等价地用误差平方和缩减量、偏相关系数或 F 统计量来表示
无疑选择自变量要靠有关专业知识,但是作为起参谋作用的数学工具,往往是不容轻视的
通常在多元线性模型中,我们首先从有关专业角度选择有关的为数众多的因子,然后用数学方法从中选择适当的子集
本节介绍的逐步回归法就是人们在实际问题中常用的,并且行之有效的方法
逐步回归的基本思想是,将变量一个一个引入,引入变量的条件是偏回归平方和经检验是显著的,同时每引入一个新变量后,对已选入的变量要进行逐个检验,将不显著变量剔除,这样保证最后所得的变量子集中的所有变量都是显著的
这样经若干步以后便得“最优”变量子集
逐步回归是这样一种方法,使用它时每一步只有一个单独的回归因子引进或从当前的回归模型中剔除
Efroymoson (1966)编的程序中,有两个 F 水平,记作 Fin和 Fout,在每一步时,只有一个回归因子,比如说 Xi,假如剔除它可能引起RSS 的减少不超过残