第三节相关关系、回归分析与独立性检验重点难点重点:1.利用散点图判断变量之间是否具有相关关系.2.求回归直线方程和利用回归直线作出估计.3.独立性检验.难点:回归分析与独立性检验的应用.知识归纳1.两个变量的线性相关(1)散点图将样本中n个数据点(xi,yi)(i=1,2,…,n)描在平面直角坐标系中,表示两个变量关系的一组数据的图形叫做散点图.•(2)正相关、负相关•散点图中各点散布的位置是从左下角到右上角的区域,即一个变量的值由小变大时,另一个变量的值也由小变大,这种相关称为正相关.•散点图中点散布的位置是从左上角到右下角的区域,即一个变量的值由小变大时,另一个变量的值由大变小,这种相关称为负相关.2.回归分析(1)回归分析对具有相关关系的两个变量进行统计分析的方法叫回归分析.通俗地讲,回归分析是寻找具有相关关系的两个变量的非确定性关系的某种确定性,其基本步骤是:①画散点图,②求回归直线方程,③用回归直线方程作预报.(2)回归直线方程的求法①回归直线:观察散点图的特征,如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.②回归直线方程的求法——最小二乘法.设具有线性相关关系的两个变量x、y的一组观察值为(xi,yi)(i=1,2,…,n),则回归直线方程y^=a^+b^x的系数为:b^=i=1nxiyi-nx·yi=1nx2i-nx2=i=1nxi-xyi-yi=1nxi-x2a^=y-b^x其中x=1ni=1nxi,y=1ni=1nyi,(x,y)称作样本点的中心.(2)利用回归直线可以对总体进行估计(3)线性相关强度的检验:r=i=1nxi-xyi-yi=1nxi-x2·i=1nyi-y2=i=1nxiyi-nx·yi=1nx2i-nx2i=1ny2i-ny2叫做y与x间的相关系数.简称相关系数.r具有以下性质:|r|≤1,并且|r|越接近1,线性相关程度越强;|r|越接近0,线性相关程度越弱.r>0表明两变量正相关,r<0表明两变量负相关.(4)相关指数R2=1-i=1nyi-y^i2i=1nyi-y2,R2越接近于1,模型的拟合效果越好.3.独立性检验(1)若变量的不同“值”表示个体所属的不同类别,则这些变量称为分类变量.(2)两个分类变量X与Y的频数表,称作2×2列联表.y1y2合计x1aba+bx2cdc+d合计a+cb+da+b+c+d在2×2列联表中,随机变量k2=nad-bc2a+bc+da+cb+d,其中n=a+b+c+d为样本容量,用k2的取值范围可以判断“X与Y有关系“的可信度,临界值如表.(其中频数a、b、c、d都不小于5)P(k2≥k0)0.500.400.250.150.100.050.0250.0100.0050.001k00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828•①当k>10.828时,有99.9%的把握认为“X与Y有关系”.•②当k>7.879时,有99.5%的把握认为“X与Y有关系”.•③当k≤3.841时,认为没有充分的证据显示“X与Y有关系”.•(3)利用随机变量k2来确定是否能以一定把握认为“两个分类变量有关系”的方法,称作对这两个分类变量的独立性检验.误区警示1.只有当两个变量具有线性相关关系时,求出的回归方程才有实际意义.2.r是描述线性相关强度的量,r>0表示正相关,r<0表示负相关;而R2是描述回归模型拟合效果好坏的量.1.建立回归模型的基本步骤:①确定研究对象,明确解释变量和预报变量.②画出散点图,观察它们是否存在相关关系.(如线性相关关系)③确定回归方程类型.(如线性回归方程y^=b^x+a^)④按一般规则估计回归方程中的参数.(如最小二乘法)⑤得出结果后分析残差图有否异常,若存在异常,则检查数据是否有误,模型是否恰当.•2.独立性检验的步骤:•①据实际问题需要的可信度确定临界值k0.•②利用公式,由观测数据,求出k2的观测值k.•③作判断,如果k≥k0,就以(1-P(k2≥k0))×100%“的把握认为X与Y”有关系,否则就说样本数据“没有提供充分证据说明X与Y”有关系.[例1]对变量x,y的观测数据(xi,yi)(i=1,2,…,10),得散点图(1);对变量u,v的观测数据(u1,v1)(i=1,2,…,10),得散点图(2).由这两个散点图可以判断.()散点图与相关关系的判断•A.变量x与y正相关...