1 第 4 章 多元回归分析 简单说,回归分析是根据统计资料建立经验公式的统计方法。例如统计若干焊接点数 据,从而建立由焊接点直径预报焊点剪切强度的预报公式;又如统计若干棵松树的胸径与材积(可利用木材体积),建立由胸径预报材积公式,也用到回归分析方法。当然回归分析不只是建立预报公式,还要对预报误差的大小,预报公式的合理性等问题讨论,有着非常丰富的内容。回归分析可用于预测和控制,在自然科学,社会科学和应用技术中都有重要应用,它是统计学最重要的工具。回归分析方法和理论从 Gau ss 提出最小二乘法开始,至今已近200 年,目前仍在蓬勃发展,例如在回归诊断、维度缩减、半参数回归、非参数回归、LOGISTIC回归等方向不断有新的突破。本章介绍参数回归分析模型及其参数估计、检验、模型选择等理论和有关计算方法。参数回归分析主要分三类:线性回归、可以转化为线性回归的回归和非线性回归。本章依次介绍这三类模型。有关回归分析的一般理论可参见陈希儒(1984),方开泰(1988),Seber(1976),何晓群(1997),何晓群、刘文卿(2001)、Richard(2003)。 Robert(1999)和王吉利(2004)提供了许多有趣的应用例子。 4.1 多元线性回归模型 首先让我们看一个例子: 例 4.1 对 15 个地区调查某种护肤霜销量得表 4-1,其中 y 表示销量(打),1x 表示目标 人口数(千人),2x 表示人均可支配收入(美元)。试建立由目标人口和人均可支配收入预测销量的公式。 表 4-1 护肤霜销量数据 销量(打)y 目标人口(千人)1x 人均可支配收入(美元)2x 162 274 2450 120 180 3254 223 375 3802 131 205 2838 67 86 2347 169 266 3782 81 98 3708 192 330 2450 116 195 2137 55 53 2560 252 430 4020 232 372 4427 144 236 2660 103 157 2088 212 370 2605 2 这个问题中,每个地区销量受该地区目标人口数和人均可支配收入数影响,3 个变量y、1x 、2x间存在密切关系。但是它们的关系不是确定性关系而是相关关系。 常见的变量间关系分为两大类:确定性关系和相关关系。确定性关系也称为函数关系。具有确定性关系时,自变量完全确定因变量的值。例如存款的年利率 c 固定,那么存款数z与总利息 y 的关系就是确定性关系;z 知道后,y 就由 y=cz 确定。又如自由落体的下落高度s 与下落时间 t 的关系221 gts 也是确定性关系。现实世界中大量存在...