2.3残差分析前面讨论的是线性回归模型的参数估计和有关的统计推断,这些讨论都是在对模型作了一定的假设进行的,其中最重要的是回归关系的线性假设,误差项的独立同正态分布假设。当给定了一批数据后,如何考察这些数据满足假设是回归分析的一个重要环节。这些假设涉及到误差项,而误差是不可测的,我们能够使用的是其估计量残差。2.3.1误差项的正态性检验一、学生化残差从误差的估计值(残差)出发分析关于误差项假定的合理性以及线性回归关系的假定的可行性称为残差分析。假设误差向量),0(~2IN则残差向量))(,0(~ˆ2HINTTXXXXH1)(其中H是n阶对称幂等矩阵故nihNiii,,2,1)),1(,0(~ˆ其中iTTiiixXXxh1)(是H主对角线的第i个元素,称为杠杆量。由于残差的方差和杠杆量有关,故一般情况下,残差的方差不相等,这不利于残差的应用,,因此我们将残差标准化。nihMSEriiii,,2,1,)1(ˆ称为学生化残差,当n较大时,可认为其服从标准正态分布。这是检验误差项独立同正态分布的基础。二、残差正态性的频率检验残差正态性的频率检验是一种很直观的检验方法,其基本思想是学生化残差落入一些范围的频率与标准正态分布在相应范围内的概率做比较,若二者相差较大,则认为残差(从而模型误差)不服从正态分布。在实际应用中,一般取几个具有代表性的区间进行比较。例如(-1,1)(-1.5,1.5)(2,2)服从标准正态分布的随机变量取值在(-1,1)内的概率为0.68;在(-1.5,1.5)内的概率为0.87;在(-2,2)内为0.95,因此若模型误差项独立同正态分布,则当n较大时,学生化残差中应大约有68%的点落在在(-1,1)内;大约有87%在(-1.5,1.5)内,大约95%在(-2,2)内。若在某个区间内差异较大,则有理由怀疑误差独立同正态分布的假设的合理性。三、残差的正态qq图检验(1)学生化残差正态qq图做法则所得的散点图即为学生化残差的正态qq图,利用正态qq图可以直观检验误差正态性假设的合理性)()2()1(,,,1nrrr序统计量:)写出学生化残差的次)25.0375.0(,,,2,121)(niqnii计算)对每个)3)()(iirq,)在坐标系中描出点((2)相关系数检验。除了上述直观检验外,我们还可以构造两者的相关系数来度量二者之间线性关系的强弱。其相关系数估计为niniiiniiiqqrrqqrr11)()(1)()()()())((ˆ一条直线上。,则散点图上点大致在接近于若1通过考察不同类型残差图可以对误差项分布的正态性,等方差性以及回归关系的线性性等假定的合理性作出直观检测,还可以对回归方程是否有必要引进自变量的高次项、交叉项等提供参考。2.3.2残差图的分析残差图是以残差为纵坐标,以其他有关量为横坐标的散点图。(1)以因变量Y的拟合值为横坐标的散点图。若线性回归关系正确且误差服从正态分布,则因变量的拟合值与残差向量相互独立。这时残差图中的点应大致在一个水平的带状区域内,没有任何明显地趋势,如下图:(2)以自变量观测值为横坐标的散点图。(3)以观测时间或观测值序号横坐标的散点图。还可以用以下坐标做残差图,两种残差图原理与上一个相同通过残差分析可以发现所给数据的某些特点和模型假定的一些不足之处,接下来的问题就是要采取相应的措施改进其不足,以建立更好的回归模型。一个常用的改进措施就是Box-Cox变换,它通过对因变量Y做适当变换,使原数据尽可能满足线性回归模型的条件。2.3.2Box-Cox变换Box-Cox变换对因变量Y做如下变换:0,ln0,1)(YYY满足:,使得我们要确定)(Y),0(~,2)(ENXY也就是说,我们通过因变量的变换,使得变换后因变量与自变量有线性相关关系,且满足误差项的假设。法确定:的取值我们通过以下方达到最小。,使选择)(1)()())(()(),(SSEZXXXXEZZTTT0,])[(ln0,][/)1(),,,(1111)()()(2)(1)(nniiinniiiiTnyyyyzzzzZ其中回归方程的选取包括回归方程类型的选取和回归方程类型确定后自变量的选取。我们主要讨论自变量的选取人们在建立线性回归模型时,会考虑用全部可能的自变量建立回归...