哈三中2014届高三第一轮复习变量间的相关关系与统计案例一、知识点1.两个变量的相关关系:正相关:点散布在从左下角到右上角的区域负相关:点散布在从左上角到右下角的区域2
线性相关关系与回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系.这条直线叫做回归直线.3
回归直线方程与最小二乘法①n个观测值的n个点大致分布在一条直线的附近,若所求的直线方程为则我们将这个方程叫做回归直线方程,a、b叫做回归系数,相应的直线叫做回归直线.②最小二乘法使总体偏差Q=((y1-bx1-a)2+(y2-bx2-a)2+…+y(yn-bxn-a)21为最小的方法,叫最小二乘法.4
回归分析具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn)中,回归方程的斜率和截距的最小二乘估计分别为:其中,称为样本点的中心,线性回归方程为ya
残差分析(1)残差:对于样本点(x1,y1),(x2,y2),…,(xn,yn),它们的随机误差为ei=yi-bxi-a,i=1,2,…,n,其估计值为ei=yi-yi=yi-bxi-a,i=1,2,…,n,ei称为相应于点(xi,yi)的残差
(2)残差平方和变量间的相关关系与统计案例共4页第1页(3)相关指数R2=1R2越大,意味着残差平方和越小,即模型的拟合效果越好.R2越小,残差平方和越大,即模型的拟合效果越差.在线性回归模型中,R2表示解释变量对于预报变量变化的贡献率,R2越接近于1,表示回归的效果越好.6
独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为2×2列联表y1y2总计x1aba