第 3 讲 变量相关关系与统计案例基础知识整合1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.2.回归方程与回归分析(1)线性相关关系与回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程① 最小二乘法:求回归直线使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.② 回归方程:方程y=bx+a是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中a,b是待定数.(3)回归分析① 定义:对具有相关关系的两个变量进行统计分析的一种常用方法.② 样本点的中心:在具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn)中,x=(x1+…+xn),y=(y1+…+yn),a=y-b x,(x,y)称为样本点的中心.③ 相关系数,当 r>0 时,两变量正相关;当 r<0 时,两变量负相关;当|r|≤1 且|r|越接近于 1,相关程度越强;当|r|≤1 且|r|越接近于 0,相关程度越弱.3.独立性检验(1)独立性检验的有关概念① 分类变量可用变量的不同“值”表示个体所属的不同类别的变量称为分类变量.②2×2 列联表假设有两个分类变量 X 和 Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为 2×2 列联表)为y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d(2)独立性检验利用随机变量 (其中 n=a+b+c+d 为样本容量)来判断“两个变量有关系”的方法称为独立性检验.步骤如下:① 计算随机变量 K2的观测值 k,查表确定临界值 k0:P(K2≥k0)0.50.400.250.150.100.050.0250.0100.0050.001k00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828② 如果 k≥k0,就推断“X 与 Y 有关系”,这种推断犯错误的概率不超过 P(K2≥k0);否则,就认为在犯错误的概率不超过 P(K2≥k0)的前提下不能推断“X 与 Y 有关系”.1.相关关系与函数关系的异同共同点:二者都是指两个变量间的关系;不同点:函数关系是一种确定性关系,体现的是因果关系,而相关关系是一种非确定性关系,体现的不一定是因果关系,也可能是伴随关系.2.从散点图看相关性正...