4统计案例要点梳理1
回归分析(1)定义:对具有的两个变量进行统计分析的一种常用方法
(2)随机误差:线性回归模型用y=bx+a+e表示,其中a和b为模型的,称为随机误差
(3)样本点的中心在具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn)中,回归方程的截距和斜率的最小二乘估计公式分别为:相关关系未知参数e基础知识自主学习其中称为样本点的中心
(4)相关系数bˆ211)()()(niiiniixxyyxx,aˆxbyˆ
x,,y),(yxniixn11niiyn11①r=niniiiniiiyyxxyyxx11221)()())((②当r>0时,表明两个变量;当r<0时,表明两个变量
r的绝对值越接近于1,表明两个变量的线性相关性
r的绝对值越接近于0时,表明两个变量之间
通常|r|大于时,认为两个变量有很强的线性相关性
))((1221221niiniiniiiynyxnxyxnyx正相关负相关越强几乎不存在线性相关关系0
残差分析(1)总偏差平方和把每个效应(观测值减去总的平均值)的平方加起来即:
(2)残差数据点和它回归直线上相应位置的差异(yi-)是的效应,称为残差
(3)残差平方和
iyˆ随机误差iiiyyeˆˆniiyy12)(niiiyy12)ˆ(3
独立性检验(1)分类变量:变量的不同“值”表示个体所属的,像这类变量称为分类变量
(4)相关指数R2=
R2的值越大,说明残差平方和,也就是说模型的拟合效果越好
在线性回归模型中,R2表示解释变量对预报变量变化的贡献率,R2越接近于1,表示回归的效果越好
越小不同类别niiniiiyyyy1212)()ˆ(1(2)列联表:列出两个分类变量的,称为列联表
假设有两个分类变量X