§ 2 .9 自变量选择 信息时代的一个重要特征是数据便宜信息值钱,我们经常要从海量数据中挖掘有用信息。比如影响产品质量的因素,从生产过程、员工培训过程到原材料供应过程,可能多达几百个,甚至上千个。对这些质量指标和影响因素制造商在日常生产管理过程中都有记录。现在的问题是如何从这众多的影响因素中找出影响产品质量的重要因素。有时只需判断一个自变量对因变量是否有重要影响,而不需要了解它们之间的精确定量关系。比如判断原材料供应对产品质量是否有重要影响比了解它们之间的精确定量关系更重要。线性回归模型的自变量选择就是用于有众多自变量时识别重要自变量的方法。用于线性回归模型自变量选择的方法可分为两类:全局择优法和逐步回归法。 一、全局择优法 全局择优法就是用衡量回归模型与数据拟合程度的准则,从全部可能的回归模型中选择对数据拟合最优的回归模型。对于一个包含P个自变量的回归问题,全部可能的回归模型有012PPPPPCCC个,全局择优法要求出每个回归模型的准则 值,然后找出最优的回归模型。 回归模型对数据的拟合程度可用残差平方和来表示。残差平方和越小,模型拟合的越好。但残差平方和的大小与因变量的计量单位有关,因此我们定义了决定系数。决定系数越大,模型拟合的越好。决定系数不仅与因变量的计量单位无关,而且能说明在因变量的变异中,归功于自变量变化的部分所占比例。但不论是用残差平方和还是用决定系数来度量线性拟合模型拟合程度,都会得出模型中包含越多自变量拟合就越好的结论。但在样本容量给定的情况下,自变量越多,模型就越复杂, 模型参数估计就越不精确,导致模型应用的效果就越差。因此我们需要能综合用残差平方和表示的模型拟合精度和用模型中包含的自变量个数表示的模型复杂程度的准则,以便选择出最优的回归模型。回归分析中用于选择自变量的准则很多。由于残差平方和RSSp和决定系数R2只考虑模型拟合精度,因而只能作为自变量个数相同时自变量选择的准则。残差均方s2和修正决定系数2adjR是一个综合模型拟合精度和模型复杂程度的准则。综合性准则除了残差均方和修正决定系数外,还有如下一些准则: ·Mallow s Cp准则 )1(22pnsRSSCpp 其中,s2为包含全部自变量的拟合模型的残差均方,RSSp为当前拟合模型的残差平方和,p为当前拟合模型的自变量个数。 ·信息准则 信息准则根据公式 npar*k +logLik*2- 计算,其中logLik= -n{log(RSS/n)+log(2π)...