2.3.2线性回归直线方程1、两个变量之间的相关关系的含义自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系.正相关的散点图中的点散布在从左下角到右上角的区域,负相关的散点图中的点散布在从左上角到右下角的区域复习回顾:2、成正相关和负相关的两个相关变量的散点图分别有什么特点?:上节在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据:年龄23273941454950脂肪9.517.821.225.927.526.328.2年龄53545657586061脂肪29.630.231.430.833.535.234.6探究:通过散点图我们发现人体的脂肪含量与年龄之间是正相关,那么当年龄增加时,体内脂肪含量到底是以什么方式增加的呢?我们这一节就从理论上研究一下探究:1、散点图中样本点的中心怎么确定?样本数据的平均数1111,,,nniiiixxyyxynn则是这组数据的中心点=散点图中的点分布整体上看大致在经过散点中心一条直线附近,2、样本点的分布有什么规律?我们就称这两个变量之间具有线性相关关系,这条直线叫做回归直线,回归直线的方程简称:回归方程.如何才能找到合适的回归直线?合作交流:方案1、在图中选取两点画直线,使得直线两侧的点的个数基本相同。方案2、在散点图中多取几组点,确定几条直线的方程,分别求出各条直线的斜率和截距的平均数,将这两个平均数作为回归方程的斜率和截距。方案3:先画一条直线,测量出各点到它的距离,然后移动直线,到达一个使距离之和最小的位置,测量出此时直线的斜率和截距,就得到回归方程。根据不同的标准可画出不同的直线来近似地表示这种线性关系,但让人感觉可靠性不强.这里在y的上方加记号“^”,是为了区别实际值y,y对x的回归直线方程.a,b叫做回归系数.要确定回归直线方程,只要确定回归系数a,b.实际上,我们希望找到一条直线,“从整体上看各点与此直线的距离和最小”,即最贴近已知的数据点,最能代表变量x与y之间的关系,记此直线方程为:),(11yx),(22yx),(iiyx),(nnyx}}iiyyˆxy2221122()()()nnQybxaybxaybxa由于含有绝对值,运算不方便,于是改用为则n个距离之和可表达为:11ˆ||=||nniiiiiiyyybxa22ˆyyˆ()(1,2,)iiiiyyybxain代表n个点与回归直线的“整体距离(偏差)”1122211()(),()nniiiiiinniiiixxyyxnxybxxxnxaybxy以上公式的推导较复杂,故不作推导。通过求的Q最小值而得到回归直线方程的方法,即求线性回归直线,使得样本数据的点到它的距离(偏差)的平方和最小的方法叫做最小二乘法。。2221122()()()nnQybxaybxaybxa问题归结为:求当a,b取何值时Q最小值,整体距离最小用最小二乘法的探索过程1niiiybxa21niiiybxa2221122,nnQybxaybxaybxaab当取什么值时,Q的值最小,即“整体距离”最小.根据数学理论含绝对值,运算不方便xbyaxnxyxnxxxyyxxbniiniiiniiniiiy,)())((1221121求样本数据的线性回归方程,可按下列步骤进行:第一步,计算平均数,xy1niiixy21niix第二步,求和,1122211()(),()nniiiiiinniiiixxyyxynxybaybxxxxnx第三步,计算ybxa第四步,写出回归方程利用计算器或计算机可求得年龄和人体脂肪含量的样本数据的回归方程为,由此我们可以根据一个人个年龄预测其体内脂肪含量的百分比的回归值.若某人37岁,则其体内脂肪含量的百分比约为多少?0.5770.448yxÙ=-051015202530354020253035404550556065年龄脂肪含量20.87%例1、下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据:x3456y2.5344.5例题精讲:(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y^=bx+a;(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)(1)散点图如图所示:(2)由题意,得i=14xiyi=3×2.5+4×3+5×4+6×4.5=66.5,x=3+4+5+64=4.5,y=2.5+3+...