第3课时变量间的相关关系、统计案例1.两个变量的线性相关(1)正相关在散点图中,点散布在从_______到_______的区域.对于两个变量的这种相关关系,我们将它称为正相关.左下角右上角(2)负相关在散点图中,点散布在从_______到_______的区域,两个变量的这种相关关系称为负相关.(3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在_____________,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.左上角右下角一条直线附近【思考探究】相关关系与函数关系有什么异同点?提示:相同点:两者均是指两个变量的关系.不同点:①函数关系是一种确定的关系,相关关系是一种非确定的关系.②函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.2.回归方程(1)最小二乘法求回归直线使得样本数据的点到回归直线的__________________的方法叫做最小二乘法.距离的平方和最小(2)回归方程方程y∧=bx+a是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中a,b是待定参数.b=______________=______________,a=y-bxi=1nxi-xyi-yi=1nxi-x2i=1nxiyi-nxyi=1nx2i-nx23.回归分析(1)定义:对具有__________的两个变量进行统计分析的一种常用方法.(2)随机误差:线性回归模型用y=bx+a+e表示,其中a和b为模型的__________,___称为随机误差.相关关系未知参数e(4)相关系数①r=____________________________;i=1nxi-xyi-yi=1nxi-x2i=1nyi-y2②当r>0时,表明两个变量________;当r<0时,表明两个变量_________.r的绝对值越接近于1,表明两个变量的线性相关性_______.r的绝对值越接近于0时,表明两个变量之间_________________________.通常|r|大于______时,认为两个变量有很强的线性相关性.正相关负相关越强几乎不存在线性相关关系0.754.残差分析(1)总偏差平方和把每个效应(观测值减去总的平均值)的平方加起来即:___________.(2)残差数据点和它在回归直线上相应位置的差异(yi-y∧i)是_________的效应,称___________为相应于点(xi,yi)的残差.i=1n(yi-y)2随机误差e∧i=yi-y∧i5.独立性检验(1)分类变量:变量的不同“值”表示个体所属的__________,像这样的变量称为分类变量.(2)列联表:列出两个分类变量的________,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为不同类别频数表2×2列联表y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d构造一个随机变量K2=_______________________,其中n=______________为样本容量.a+b+c+dnad-bc2a+bc+da+cb+d(3)独立性检验利用随机变量、_____________来确定是否一定有把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.独立性假设1.下列关系中,是相关关系的为()①学生的学习态度与学习成绩之间的关系;②教师的执教水平与学生的学习成绩之间的关系;③学生的身高与学生的学习成绩之间的关系;④家庭的经济条件与学生的学习成绩之间的关系.A.①②B.①③C.②③D.②④答案:A2.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是()A.模型1的相关指数R2为0.98B.模型2的相关指数R2为0.80C.模型3的相关指数R2为0.50D.模型4的相关指数R2为0.25解析:据相关指数的定义可知,相关指数R2的值越大,残差平方和越小,即模型的拟合效果越好.答案:A3.已知x,y之间的数据如表所示,则回归直线过点()A.(0,0)B.(2,1.8)C.(3,2.5)D.(4,3.2)x12345y1.21.82.53.23.8解析: 回归直线一定过点(x,y),又x=1+2+3+4+55=3,y=1.2+1.8+2.5+3.2+3.85=2.5,∴回归直线一定过点(3,2.5).答案:C4.据两个变量x,y之间的观测数据画成散点图如图,这两个变量是否具有线性相关关系(填“是”或“否”)________.答案:否5.在一项打鼾与患心脏病的调查中,共调查了1671人,经过计算K2的观测值k=27.63...