•重点难点•重点:1.利用散点图判断变量之间是否具有相关关系.•2.求回归直线方程和利用回归直线方程作出估计.•难点:回归分析与独立性检验的应用.•知识归纳•1.变量间的相关关系•(1)相关关系•自变量取值一定时,因变量的取值带有一定的随机性的两个变量之间的关系叫做相关关系.•2.两个变量的线性相关•(1)散点图•将样本中n个数据点(xi,yi)(i=1,2…,,n)描在平面直角坐标系中,表示具有相关关系的两个变量的一组数据的图形叫做散点图.利用散点图可以判断变量之间有无相关关系.•(2)正相关、负相关•如果散点图中各点散布的位置是从左下角到右上角的区域,即一个变量的值由小变大时,另一个变量的值也由小变大,这种相关称为正相关.•反之,如果两个变量的散点图中点散布的位置是从左上角到右下角的区域,即一个变量的值由小变大时,另一个变量的值由大变小,这种相关称为负相关.•3.回归分析•对具有相关关系的两个变量进行统计分析的方法叫回归分析.其基本步骤是:①画散点图,②求回归直线方程,③用回归直线方程作预报.•(1)回归直线:观察散点图的特征,如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.•(2)——回归直线方程的求法最小二乘法.设具有线性相关关系的两个变量x、y的一组观察值为(xi,yi)(i=1,2,…,n),则回归直线方程y^=a^+b^x的系数为:b^=i=1nxiyi-nx·yi=1nxi2-nx2=i=1nxi-x-yi-y-i=1nxi-x-2a^=y--b^x其中x-=1ni=1nxi,y-=1ni=1nyi,(x-,y-)称作样本点的中心.a^,b^表示由观察值用最小二乘法求得的a,b的估计值,叫回归系数.(3)利用回归直线方程对总体进行估计若回归直线方程为y^=b^x+a^,则在x=x0处的估计值:y^0=b^x0+a^.(4)线性相关强度的检验:对于变量x与y随机取到的n对数据(xi,yi),用y与x间的相关系数r=i=1nxi-x-yi-y-i=1nxi-x-2·i=1nyi-y-2•r具有以下性质:|r|≤1,并且|r|越接近1,线性相关程度越强;|r|越接近0,线性相关程度越弱.=i=1nxiyi-nx-·y-i=1nxi2-nx2i=1nyi2-ny2来检验x与y是否线性相关.•检验的步骤如下:•①作统计假设:x与Y不具有线性相关关系.•②根据小概率0.05与n-2在附表中查出r的一个临界值r0.05.•③根据样本相关系数计算公式算出r的值.•④作统计推断.如果|r|>r0.05,表明有95%的把握认为x与Y之间具有线性相关关系.•如果|r|≤r0.05,我们没有理由拒绝原来的假设.这时寻找回归直线方程是毫无意义的.•(5)建立回归模型的基本步骤:•①确定研究对象,明确解释变量和预报变量.•②画出散点图,观察它们是否存在相关关系.(如线性相关关系)•④按一般规则估计回归方程中的参数.(如最小二乘法)•⑤得出结果后分析残差图是否异常,若存在异常,则检查数据是否有误,模型是否恰当.③确定回归方程类型.(如线性回归方程y^=b^x+a^)•4.独立性检验•(1)“”若变量的不同值表示个体所属的不同类别,则这些变量称为分类变量.•(2)两个分类变量X与Y的频数表,称作2×2列联表.y1y2合计x1n11n12n1+x2n21n22n2+合计n+1n+2n在2×2列联表中,随机变量χ2=nn11n22-n12n212n1+·n2+·n+1·n+2,其中n为样本容量,χ2的取值范围可以判断“X与Y有关系“的可信度如表.(其中频数n11、n12、n21、n22都不小于5)P(χ2≥k)0.500.400.250.150.100.050.0250.0100.0050.001k0.4550.7081.3232.0722.7063.8415.0246.6357.87910.828•①当χ2>6.635时,有99%“的把握认为X与Y”有关系.•②当χ2>3.841时,有95%“的把握认为X与Y”有关系.•③当χ2≤3.841时,没有充分理由认为X与Y是相关的.•误区警示•1.线性回归方程中的系数、公式复杂莫记混用错.•2.使用χ2统计量作2×2列联表的独立性检验时,要求表中的4个数据n11、n12、n21、n22都要大于5,在选取样本的容量时,要注意这一点.•[例1]有个男孩的年龄与身高的统计数据如下.•画出散点图,并判断它们是否有线性相...