例1从某大学中随机选取8名女大学生,其身高和体重数据如表1-1所示
编号12345678身高cm165165157170175165155170体重kg4857505464614359求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女大学生的体重
案例1:女大学生的身高与体重172
0ˆxyˆ学身高172cm女大生体重y=0
849×172-85
712=60
316(kg)探究:身高为172cm的女大学生的体重一定是60
316kg吗
由于所有的样本点不共线,而只是散布在某一直线的附近,所以身高和体重的关系可以用线性回归模型来表示:其中a和b为模型的未知参数,e称为随机误差
eabxy函数模型与回归模型之间的差别一次函数模型:y=bx+a线性回归模型y=bx+a+e增加了随机误差e,因变量y的值由自变量x和随机误差e共同确定,即自变量x只能解析部分y的变化
在统计中,我们也把自变量x称为解释变量,因变量y称为预报变量
线性回归模型:y=bx+a+e函数模型与“回归模型”的关系函数模型:因变量y完全由自变量x确定回归模型:预报变量y完全由解释变量x和随机误差e确定注:e产生的主要原因:(1)所用确定性函数不恰当;(2)忽略了某些因素的影响;(3)观测误差
思考:产生随机误差项e的原因是什么
以上三项误差越小,说明我们的回归模型的拟合效果越好
残差分析在研究两个变量间的时,首先要根据散点图来粗略判断它们是否是线性相关,是否可以用线性回归模型来拟合数据
然后,可以通过残差来判断模型拟合的效果,判断原始数据中是否存在可疑数据
这方面的分析工作称为残差分析
12ˆˆˆ,,,neee0
373残差5943616454505748体重/kg1701551