4统计案例要点梳理1
回归分析(1)定义:对具有的两个变量进行统计分析的一种常用方法
(2)随机误差:线性回归模型用y=bx+a+e表示,其中a和b为模型的,称为随机误差
(3)样本点的中心在具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn)中,回归方程的截距和斜率的最小二乘估计公式分别为:相关关系未知参数e基础知识自主学习其中称为样本点的中心
(4)相关系数bˆ211)()()(niiiniixxyyxx,aˆxbyˆ
x,,y),(yxniixn11niiyn11①r=niniiiniiiyyxxyyxx11221)()())((②当r>0时,表明两个变量;当r<0时,表明两个变量
r的绝对值越接近于1,表明两个变量的线性相关性
r的绝对值越接近于0时,表明两个变量之间
通常|r|大于时,认为两个变量有很强的线性相关性
))((1221221niiniiniiiynyxnxyxnyx正相关负相关越强几乎不存在线性相关关系0
独立性检验(1)分类变量:变量的不同“值”表示个体所属的,像这类变量称为分类变量
不同类别(2)列联表:列出两个分类变量的,称为列联表
假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为2×2列联表y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d频数表构造一个随机变量K2=,其中n=为样本容量
(3)独立性检验利用随机变量来确定是否能以一定把握认为“两个分类变量”的方法称为两个分类变量的独立性检验
))()()(()(2dbcadcbabcadna+b+c+dK2有关系基础自测1
相关系数度量()A
两个变量之间线性相关关系的强度B
散点图是否显