多元线性回归分析 直线回归概念复习 例:为了研究3 岁至8 岁男孩身高与年龄的规律,在某地区在3岁至8 岁男孩中随机抽样,共分6 个年龄层抽样:3 岁,4 岁,…,8岁,每个层抽10 个男孩,共抽60 个男孩。资料如下: 60 个男孩的身高资料如下 年龄 3岁 4岁 5岁 6岁 7岁 8岁 身 高 92.5 96.5 106.0 115.5 125.5 121.5 97.0 101.0 104.0 115.5 117.5 128.5 96.0 105.5 107.0 111.5 118.0 124.0 96.5 102.0 109.5 110.0 117.0 125.5 97.0 105.0 111.0 114.5 122.0 122.5 92.0 99.5 107.5 112.5 119.0 123.5 96.5 102.0 107.0 116.5 119.0 120.5 91.0 100.0 111.5 110.0 125.5 123.0 96.0 106.5 103.0 114.5 120.5 124.0 99.0 100.0 109.0 110.0 122.0 126.5 平均身高 95.4 101.8 107.6 113.1 120.6 124.0 从散点图上,我们可以发现样本点(X ,Y )随机地出现在一条直线附近,并且从资料背景上考察,同一年龄的儿童身高应近似服从一个正图 1 某地男童身高与年龄的散点图 态分布,而儿童身高的总体均数应随着年龄增长而增大,并由每个年龄的身高样本均数与儿童年龄的散点图可以发现:这些点非常接近一条直线以及样本均数存在抽样误差,因此推测儿童身高的总体均数与年龄可能呈直线关系。故假定身高Y 在年龄X 点上的总体均数XY|与X 呈直线关系。 xy 其中 y 表示身高,x 表示年龄。由于身高的总体均数与年龄有关,所以更准确地标记应为 xy|x 表示在固定年龄情况下的身高总体均数。 年龄 平均身高 直线24689 01 0 01 1 01 2 01 3 0 身高的样本均数与年龄的散点图 故有理由认为身高的总体均数与年龄的关系可能是一条直线关系 上述公式称为直线回归方程。其中为回归系数(regression coefficient),或称为斜率(slope);称为常数项(constant),或称为截距(intercept)。回归系数表示x 变化一个单位y 平均变化个单位。当x 和y 都是随机的,x、y 间呈正相关时>0,x、y 间呈负相关时<0,x、y 间独立时=0。 一般情况而言,参数和是未知的。对于本例而言,不同民族和不同地区,和往往是不同的,因此需要进行估计的。由于不同年龄的身高实际观察值应在对应的身高总体均数附近(即:实际观察值与总体均数之间仅存在个体变异的差异),故可以用年龄和实际身高观察值的资料对未知参数...