回归分析回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法
运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析
如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析
如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析
定义 方差齐性 线性关系 效应累加 变量无测量误差 变量服从多元正态分布 观察独立 模型完整(没有包含不该进入的变量、也没有漏掉应该进入的变量) 误差项独立且服从(0,1)正态分布
现实数据常常不能完全符合上述假定
因此,统计学家研究出许多的回归模型来解决线性回归模型假定过程的约束
研究一 个或多个随机变量 Y1 ,Y2 ,…,Yi 与另一些变量 X1、X2,…,Xk 之间的关系的统计方法
又称多重回归分析
通常称 Y1,Y2,…,Yi 为因变量,X1、X2,…,Xk 为自变量
回归分析是一类数学模型,特别当因变量和自变量为线性关系时,它是一种特殊的线性模型
最简单的情形是一个自变量和一个因变量,且它们大体上有线性关系,这叫一元线性回归,即模型为 Y=a+bX+ε,这里 X 是自变量,Y 是因变量,ε 是随机误差,通常假定随机误差的均值为 0,方差为 σ^2(σ^2 大于 0)σ2 与 X 的值无关
若进一步假定随机误差遵从正态分布,就叫做正态线性模型
一般的情形,差有 k 个自变量和一个因变量,因变量的值可以分解为两部分:一部分是由自变量的影响,即表示为自变量的函数,其中函数形式已知,但含一些未知参数;另一部分是由于其他未被考虑的因素和随机性的影响,即随机误差
当函数形式为未知参数的线性函数