高二数学第二章 回归分析(补充教材)回归分析是研究变量之间相关关系的一种统计推断法。例如,人的血压 y 与年龄 x 有关,这里 x 是一个普通变量,y 是随机变量。Y 与 x 之间的相依关系 f(x)受随机误差 的干扰使之不能完全确定,故可设有: 式中 f(x)称作回归函数, 为随机误差或随机干扰,它是一个分布与 x 无关的随机变量,我们常假定它是均值为 0 的正态变量。为估计未知的回归函数 f(x),我们通过 n 次独立观测,得 x 与 y 的 n 对实测数据(xi,yi)i=1,……,n,对 f(x)作估计。实际中常遇到的是多个自变量的情形。例如 在考察某化学反应时,发现反应速度 y 与催化剂用量 x1,反应温度 x2,所加压力 x3等等多种因素有关。这里 x1,x2,……都是可控制的普通变量,y 是随机变量,y 与诸 xi间的依存关系受随机干扰和随机误差的影响,使之不能完全确定,故可假设有: 这里 是不可观察的随机误差,它是分布与 x1,……,xk无关的随机变量,一般设其均值为 0,这里的多元函数 f(x1,……,xk)称为回归函数,为了估计未知的回归函数,同样可作 n次独立观察,基于观测值去估计 f(x1,……,xk)。以下的讨论中我们总称自变量 x1,x2,……,xk为控制变量,y 为响应变量,不难想象,如对回归函数 f(x1,……,xk)的形式不作任何假设,问题过于一般,将难以处理,所以本章将主要讨论 y 和控制变量 x1,x2,……,xk呈现线性相关关系的情形,即假定f(x1,……,xk)=b0+b1x1+……+bkxk。并称由它确定的模型 (k=1)及为线性回归模型,对于线性回归模型,估计回归函数 f(x1,……,xk)就转化为估计系数 b0、bi(i=1,……,k) 。当线性回归模型只有一个控制变量时,称为一元线性回归模型,有多个控制变量时称为多元线性回归模型,本着由浅入深的原则,我们重点讨论一元的,在此基础上简单介绍多元的。§2.1 一元线性回归一、一元线性回归的数学模型(参见教材 P23-P24 三)前面我们曾提到,在一元线性回归中,有两个变量,其中 x 是可观测、可控制的普通变量,1常称它为自变量或控制变量,y 为随机变量,常称其为因变量或响应变量。通过散点图或计算相关系数判定 y 与 x 之间存在着显著的线性相关关系,即 y 与 x 之间存在如下关系:y=a+bx+ (2.1-6)通常认为 ~N(0,σ2)且假设 σ2与 x 无关。将观测数据(xi,yi)(i=1,……,n)代入(2.1-6)再注意样本为简单随机样本得: (2.1-7)称(2.1-6)或(2.1-7)(又称为数据结...