3残差分析前面讨论的是线性回归模型的参数估计和有关的统计推断,这些讨论都是在对模型作了一定的假设进行的,其中最重要的是回归关系的线性假设,误差项的独立同正态分布假设
当给定了一批数据后,如何考察这些数据满足假设是回归分析的一个重要环节
这些假设涉及到误差项,而误差是不可测的,我们能够使用的是其估计量残差
1误差项的正态性检验一、学生化残差从误差的估计值(残差)出发分析关于误差项假定的合理性以及线性回归关系的假定的可行性称为残差分析
假设误差向量),0(~2IN则残差向量))(,0(~ˆ2HINTTXXXXH1)(其中H是n阶对称幂等矩阵故nihNiii,,2,1)),1(,0(~ˆ其中iTTiiixXXxh1)(是H主对角线的第i个元素,称为杠杆量
由于残差的方差和杠杆量有关,故一般情况下,残差的方差不相等,这不利于残差的应用,,因此我们将残差标准化
nihMSEriiii,,2,1,)1(ˆ称为学生化残差,当n较大时,可认为其服从标准正态分布
这是检验误差项独立同正态分布的基础
二、残差正态性的频率检验残差正态性的频率检验是一种很直观的检验方法,其基本思想是学生化残差落入一些范围的频率与标准正态分布在相应范围内的概率做比较,若二者相差较大,则认为残差(从而模型误差)不服从正态分布
在实际应用中,一般取几个具有代表性的区间进行比较
例如(-1,1)(-1
5)(2,2)服从标准正态分布的随机变量取值在(-1,1)内的概率为0
68;在(-1
5)内的概率为0
87;在(-2,2)内为0
95,因此若模型误差项独立同正态分布,则当n较大时,学生化残差中应大约有68%的点落在在(-1,1)内;大约有87%在(-1
5)内,大约95%在(-2,2)内
若在某个区间内差异较大,则有理由怀疑误差独立同正态分布的