4统计案例1.回归分析(1)回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.(2)线性回归模型用y=bx+a+e表示,其中a和b为模型的未知参数,e称为____________.它的均值满足E(e)=__________,D(e)=σ2,σ2越小,精度越________.(3)在具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn)中,回归方程的斜率和截距的最小二乘估计公式分别为:其中=,=,称为样本点的中心
(4)残差:=称为相应于点(,)的残差,残差平方和为
(5)相关指数R2=
R2越大,说明残差平方和,即模型的拟合效果;R2越小,残差平方和,即模型的拟合效果
在线性回归模型中,R2表示解释变量对于预报变量变化的,R2越接近于1,表示回归的效果
独立性检验(1)变量的不同“值”表示个体所属的不同类别,像这样的变量称为___________
(2)像下表所示列出两个分类变量的频数表,称为___________
假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d构造一个随机变量K2=___________,其中n=a+b+c+d为样本容量
如果K2的观测值k≥k0,就认为“两个分类变量之间有关系”;否则就认为“两个分类变量之间没有关系”
我们称这样的k0为一个判断规则的临界值
按照上述规则,把“两个分类变量之间没有关系”错误地判断为“两个分类变量之间有关系”的概率不超过P(K2≥k0)
上面这种利用随机变量K2来判断“两个分类变量有关系”的方法称为___________
(2)随机误差0高(3)(,)(4)(5)1-越小越好越大越差贡献率越好2.(1)分类变量(2)列联表独立性检验r