§11.4统计案例要点梳理1.回归分析(1)定义:对具有的两个变量进行统计分析的一种常用方法.(2)随机误差:线性回归模型用y=bx+a+e表示,其中a和b为模型的,称为随机误差.(3)样本点的中心在具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn)中,回归方程的截距和斜率的最小二乘估计公式分别为:相关关系未知参数e基础知识自主学习其中称为样本点的中心.(4)相关系数bˆ211)()()(niiiniixxyyxx,aˆxbyˆ.x,,y),(yxniixn11niiyn11①r=niniiiniiiyyxxyyxx11221)()())((②当r>0时,表明两个变量;当r<0时,表明两个变量.r的绝对值越接近于1,表明两个变量的线性相关性.r的绝对值越接近于0时,表明两个变量之间.通常|r|大于时,认为两个变量有很强的线性相关性.))((1221221niiniiniiiynyxnxyxnyx正相关负相关越强几乎不存在线性相关关系0.752.残差分析(1)总偏差平方和把每个效应(观测值减去总的平均值)的平方加起来即:.(2)残差数据点和它回归直线上相应位置的差异(yi-)是的效应,称为残差.(3)残差平方和.iyˆ随机误差iiiyyeˆˆniiyy12)(niiiyy12)ˆ(3.独立性检验(1)分类变量:变量的不同“值”表示个体所属的,像这类变量称为分类变量.(4)相关指数R2=.R2的值越大,说明残差平方和,也就是说模型的拟合效果越好.在线性回归模型中,R2表示解释变量对预报变量变化的贡献率,R2越接近于1,表示回归的效果越好.越小不同类别niiniiiyyyy1212)()ˆ(1(2)列联表:列出两个分类变量的,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为2×2列联表y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d频数表构造一个随机变量K2=,其中n=为样本容量.(3)独立性检验利用随机变量来确定是否能以一定把握认为“两个分类变量”的方法称为两个分类变量的独立性检验.))()()(()(2dbcadcbabcadna+b+c+dK2有关系基础自测1.相关系数度量()A.两个变量之间线性相关关系的强度B.散点图是否显示有意义的模型C.两个变量之间是否存在因果关系D.两个变量之间是否存在关系解析相关系数来衡量两个变量之间线性相关关系的强弱.A2.甲、乙、丙、丁四位同学各自对A、B两变量的线性相关性作试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:则哪位同学的试验结果体现A、B两变量更强的线性相关性?()A.甲B.乙C.丙D.丁解析r>0且丁最接近1,残差平方和越小,相关性越高,故选D.甲乙丙丁r0.820.780.690.85m115106124103D3.已知x、y之间的数据如表所示,则回归直线过点()A.(0,0)B.(,0)C.(0,)D.(,)解析回归直线过样本点的中心(,).x1.081.121.191.28y2.252.372.402.55Dxyxyxy4.下列说法中正确的有:①若r>0,则x增大时,y也相应增大;②若r<0,则x增大时,y也相应增大;③若r=1或r=-1,则x与y的关系完全对应(有函数关系),在散点图上各个点均在一条直线上()A.①②B.②③C.①③D.①②③解析若r>0,表示两个相关变量正相关,x增大时,y也相应增大,故①正确.r<0,表示两个变量负相关,x增大时,y相应减小,故②错误.|r|越接近1,表示两个变量相关性越高,|r|=1表示两个变量有确定的关系(即函数关系),故③正确.C5.在一项打鼾与患心脏病的调查中,共调查了1671人,经过计算K2=27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是的(有关,无关).解析 K2=27.63>10.828,∴有99.9%的把握认为“打鼾与患心脏病有关”.有关题型一线性回归分析【例1】假设关于某种设备的使用年限x(年)与所支出的维修费用y(万元)有如下统计资料:23456y2.23.85.56.57.0已知(1)求,;(2)对x,y进行线性相关性检验;x51515122,3.112,8.140,90iiiiiiiyxyx.878.0,32,4.12,9.87905.0rn时xy题型分类深度剖析(3)如果x与y具有线性相关关系,求出线性回归方程;(4)估计使用年限为10年时,维修费用约是多少?(1)先根据已知计算相关系数r,判断是否具有相关关系.(2)再利用公式求出...