3.1回归分析的基本思想及其初步应用知识点线性回归模型(1)函数关系是一种□确定性关系,而相关关系是一种□非确定性关系.(2)回归分析是对具有□相关关系的两个变量进行统计分析的一种常用方法.(3)对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),回归直线y=bx+a的斜率和截距的最小二乘估计公式分别为b=□=,a=□y-bx,其中□(x,y)称为样本点的中心.(4)线性回归模型y=bx+a+e,其中a和b是模型的未知参数,e称为□随机误差,自变量x称为□解释变量,因变量y称为□预报变量.知识点线性回归分析1.残差平方和法(1)ei==(i=1,2,…,n)称为相应于点(xi,yi)的□残差.(2)残差平方和□∑(yi-yi)2越小,模型拟合效果越好.2.残差图法残差点□比较均匀地落在水平的带状区域内,说明选用的模型比较合适,其中这样的带状区域宽度□越窄,说明模型的精确度越高.3.利用相关指数R2刻画回归效果其计算公式为:R2=1-□.其几何意义:□R2越接近于1,表示回归效果越好.1.建立回归模型的基本步骤(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.(2)画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性相关关系等).(3)由经验确定回归方程的类型(如观察到数据呈线性相关关系,则选用线性回归方程y=bx+a).(4)按一定规则估计回归方程中的参数(如最小二乘法).(5)得出结果后分析残差图是否有异常,若存在异常,则检查数据是否有误或模型是否合适等.2.线性回归模型中随机误差的主要来源(1)用线性回归模型作为真实模型的近似所引起的误差.可能存在非线性的函数能够更好地描述y与x之间的关系,但是现在却用线性函数来表述这种关系,结果会产生误差.(2)忽略了某些因素的影响.影响变量y的因素不仅有变量x,可能还包括其他许多因素,例如,在描述身高和体重关系的模型中,体重不仅受身高的影响,还会受遗传基因、饮食习惯、生长环境等其他因素的影响.(3)观测误差.由于测量工具等原因,导致y的观测值产生误差.3.残差分析的结果(1)残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.(2)若是有个别样本点的残差比较大,需要确认在采集这些样本点的过程中是否有人为的错误.如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型拟合数据;如果数据采集没有错误,则需要寻找其他的原因.4.对R2的理解(1)预报变量的变化与解释变量和随机误差的关系预报变量的变化程度可以分解为解释变量引起的变化程度与残差变量的变化程度之和,其中这个变化与解释变量和随机误差(即残差平方和)有关的程度是由相关指数R2的值决定的.在线性回归模型中,R2表示解释变量对预报变量变化的贡献率.R2越接近于1,表示解释变量和预报变量的线性相关性越强;反之,R2越小,说明随机误差对预报变量的效应越大.(2)R2与r的关系①相关系数可较好地反映变量的相关性及正相关或负相关,而R2反映了回归模型拟合数据的效果;②R2是相关系数的平方,其变化范围为[0,1],而相关系数的变化范围为[-1,1];③当相关系数|r|接近于1时说明两变量的相关性较强,当|r|接近于0时说明两变量的相关性较弱,而当R2接近于1时,说明线性回归方程的拟合效果较好.1.判一判(正确的打“√”,错误的打“×”)(1)残差平方和越小,线性回归方程的拟合效果越好.()(2)在画两个变量的散点图时,预报变量在x轴上,解释变量在y轴上.()(3)R2越接近于1,线性回归方程的拟合效果越好.()答案(1)√(2)×(3)√2.做一做(1)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为________.(2)在残差分析中,残差图的纵坐标为________.(3)如果发现散点图中所有的样本点都在一条直线上,则残差平方和等于________,解释变量和预报变量之间的相关系数等于________.答案(1)正相关(2)残差(3)01或-1解析(1)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关.(2)由残差图的定义知道,作图时纵坐标为残差,横坐标可以选为样本编号...