第四节变量间的相关关系、统计案例1.两个变量的线性相关(1)在散点图中,点散布在从____________到_________的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从_________到_________的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在______________,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.左下角右上角左上角右下角一条直线附近2.回归方程(1)最小二乘法:使得样本数据的点到回归直线的_____________和最小的方法叫最小二乘法.距离的平方(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1)、(x2,y2),…,(xn,yn).其回归方程为y^=b^x+a^,则其中___________称为样本点的中心.4.独立性检验(1)利用随机变量______来判断“两个分类变量__________”的方法称为独立性检验.3.残差分析(1)残差:对于样本点(x1,y1),(x2,y2),…,(xn,yn),它们的随机误差为ei=yi-bxi-a,i=1,2,…,n,其估计值为e^i=yi-y^i=yi-b^xi-a^,i=1,2,…,n.e^i称为相应于点(xi,yi)的残差.(2)残差平方和为∑ni=1(yi-y^i)2.(3)相关指数:R2=____________________.K2有关系(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为2×2列联表y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d构造一个随机变量K2=_________________________________________,其中n=_______________为样本容量.a+b+c+dn(ad-bc)2(a+b)(c+d)(a+c)(b+d)2.残差分析中的相关指数R2对模型拟合效果的影响是怎样的?【提示】R2越大,意味着残差平方和越小,即模型的拟合效果越好.R2越小,残差平方和越大,即模型的拟合效果越差.在线性回归模型中,R2表示解释变量对于预报变量变化的贡献率,R2越接近于1,表示回归的效果越好.1.线性回归方程y^=bx+a是否一定过样本点的中心(x,y),为什么?【提示】一定过点, a^=-b^,∴=b^+a^,即点一定在回归直线y^=b^x+a^上.1.(人教A版教材习题改编)下面是2×2列联表:y1y2合计x1a2173x2222547合计b46120则表中a,b的值分别为()A.94,72B.52,50C.52,74D.74,52【解析】 a+21=73,∴a=52.又a+22=b,∴b=74.【答案】C【答案】D2.(2012·课标全国卷)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=12x+1上,则这组样本数据的样本相关系数为()A.-1B.0C.12D.1【解析】样本点都在直线上时,其数据的估计值与真实值是相等的,即yi=y^i,代入相关系数公式r=【解析】由题意知[0.254(x+1)+0.321]-(0.254x+0.321)=0.254.【答案】0.2543.(2013·汕头质检)调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:y^=0.254x+0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.4.在一项打鼾与患心脏病的调查中,共调查了1671人,经过计算K2的观测值k=27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的(填有关或无关).【解析】 k=27.63>6.635,∴有99%的把握认为“打鼾与患心脏病有关”.【答案】有关(1)将上述数据制成散点图;(2)你能从散点图中发现施化肥量与水稻产量近似成什么关系吗?水稻产量会一直随施化肥量的增加而增长吗?下面是水稻产量与施化肥量的一组观测数据:施化肥量15202530354045水稻产量320330360410460470480【思路点拨】分析观测数据、制图,分析散点图,做出判断.【尝试解答】(1)散点图如下:(2)①从图中可以发现施化肥量与水稻产量具有线性相关关系,当施化肥量由小到大变化时,水稻产量由小变大,图中的数据点大致分布在一条直线的附近,因此施化肥量和水稻产量近似成线性相关关系.②不会,水稻产量只是在一定范围内随...