第一讲普通最小二乘法的代数一、问题假定y与x具有近似的线性关系:,其中是随机误差项
我们对这两个参数的值一无所知
我们的任务是利用样本数据去猜测的取值
现在,我们手中就有一个样本容量为N的样本,其观测值是:
问题是,如何利用该样本来猜测的取值
为了回答上述问题,我们可以首先画出这些观察值的散点图(横轴x,纵轴y)
既然y与x具有近似的线性关系,那么我们就在图中拟合一条直线:
该直线是对y与x的真实关系的近似,而分别是对的猜测(估计)
问题是,如何确定与,以使我们的猜测看起来是合理的呢
笔记:1、为什么要假定y与x的关系是呢
一种合理的解释是,某一经济学理论认为x与y具有线性的因果关系
该理论在讨论x与y的关系时认为影响y的其他因素是不重要的,这些因素对y的影响即为模型中的误差项
2、被称为总体回归模型
由该模型有:
既然代表其他不重要因素对y的影响,因此标准假定是:
故进而有:,这被称为总体回归方程(函数),而相应地被称为样本回归方程
由样本回归方程确定的与是有差异的,被称为残差
进而有:,这被称为样本回归模型
二、两种思考方法法一:与是N维空间的两点,与的选择应该是这两点的距离最短
这可以归结为求解一个数学问题:由于是残差的定义,因此上述获得与的方法即是与的值应该使残差平方和最小
法二:给定,看起来与越近越好(最近距离是0)
然而,当你选择拟合直线使得与是相当近的时候,与的距离也许变远了,因此存在一个权衡
一种简单的权衡方式是,给定,拟合直线的选择应该使与、与、
、与的距离的平均值是最小的
距离是一个绝对值,数学处理较为麻烦,因此,我们把第二种思考方法转化求解数学问题:由于N为常数,因此法一与法二对于求解与的值是无差异的
三、求解定义,利用一阶条件,有:由(1)也有:在这里、笔记:这表明:1、样本回归函数过点,即穿过数据集的中心位置;2、(你能证明吗
),这意味着,尽