第三章统计案例3.1回归分析的基本思想及其初步应用眉山车城中学高二数学组第1、2课时,,.().3,,,,.regressionanalysis我们知道函数关系是一种确定性关系而相关关系是一种非确定性关系回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法在《数学》中我们对两个具有线性相关关系的变量利用回归分析的方法进行了研究其步骤为画散点图求回归直线方程并用回归直线方程进行预报一.探究1.对于一组具有线性相关关系的数据1122,,,,,,,nnxyxyxy我们知道其回归直线y=bx+a的斜率和截距的最小二乘法的估计为:121ˆ,1niiiniixxyybxxˆˆ2aybx其中:111,nniiiixxyyn(,)xy(1)称为样本数据的中心点,(2)回归直线必过样本数据的中心点。求根据女大学生的身高预报体重的回归方程,并预报身高为172cm的女大学生的体重。40455055606570150155160165170175180xy编号12345678身高/cm165165157170175165155170体重/kg4857505464614359例1.从某大学中随机选取8名女大学生,其身高和体重如下:解:由于实际问题中要根据身高预报体重,因此选取身高为自变量x,体重为因变量y。做出散点图如右图所示:.712.85xˆ849.0yˆ.849.0bˆ,712.85aˆ,21于是得到回归方程可以得到和根据探究中的公式.kg316.60712.85172849.0y,cm172,预报其体重为由回归方程可以的女大学生对身高为所以40455055606570150155160165170175180xy从图中可以看出,样本点呈,说明身高与体重之间有较好的,因此可以用来刻画它们之间的关系。条状分布线性相关关系回归直线方程.yyxxyyxxrn1in1i2i2in1iii二.思考1.b=0.849是斜率的估计值,它说明身高每增加1个单位,体重就增加个单位。这也表明体重与身高具有的相关关系。2.如何描述它们之间相关性的强弱呢?0.849正3.在《必修3》中,我们介绍了用来衡量两个变量之间的相关关系的方法。4.相关系数r的计算公式为:相关系数r三.复习:相关系数r与相关关系的强弱:(1)当r>0时,表明两个变量是正相关;当r<0时,表明两个变量是负相关;(2)r的绝对值越接近于1,表明两个变量的相关性越强;r的绝对值越接近于0,表明两个变量的相关性越弱;(3)通常,当|r|>0.75时,认为这两个变量具有很强的相关性。在本例中,可以算出r=0.798,这表明体重与身高有很强的线性相关关系,从而表明我们建立的回归模型是有意义的。?,?kg316.60cm172其原因是什么不是如果吗是女大学生的体重一定的身高探究.21.1.316.60316.60172,位置说明了这一点本点和回归直线的相互中的样图以认为她的体重接近于但一般可是大学生的体重不一定的女身高显然kgkgcm4045505560657015015516016517017518021.1图3,eabxy:,,回归模型来表示可用下面的线性所以身高和体重的关系线的附近而只是散布在某一条直线由于所有的样本点不共在线性回归模型y=bx+a+e中,a和b为模型的未知参数,E是y与bx+a之间的误差,通常我们称e为随机误差,它的均值E(e)=0,方差D(e)=σ2>0,这样,线性回归模型的完整表达式为:.σeD,0eE,eabxy24四.解释变量、预报变量与函数关系不同,在回归模型中,y的值由x和随机因素e共同确定,即x只能解释部分y的变化,因此我们把x称为解释变量,把y称为预报变量。五.随机误差在模型(4)中,随机误差e的方差σ2越小,用bx+a预报真实值y的准确度越高。随机误差是引起预报值与真实值y之间存在误差的原因之一。y思考:随机误差产生的原因是什么?六.残差在实际应用中,我们用回归方程中的来估计y=bx+a+e中的bx+a,则:ˆˆˆybxaˆye=y-(bx+a),所以,就是e的估计值eyy对于样本点,它们的随机误差为:1122,,,,,,nnxyxyxy,1,2,,.iiiiieyyybxain其估计值为:ˆˆˆˆ,1,2,,,iiiiieyyybxain称为相应于点的残差ˆie,iixy思考(1)如何发现数据中的错误?(2)如何衡量模型的拟合效果?方法一:可以通过残差发现原始数据中的可疑数据。382.0883.2...