简单线性回归Linearregression回归是设法找出变量间在数量上的依存变化关系,用函数表达式表达出来,这个表达式称之为回归方程。两变量间的关系确定性关系:两变量间的函数关系圆的周长与半径的关系:C=2R速度、时间与路程的关系:L=STX与Y的函数关系:Y=a+bX非确定性关系:两变量在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄的关系;身高与体重的关系:标准体重(kg)=身高(cm)-105药物浓度与反应率的关系;一、线性回归的概念当两个变量存在准确、严格的直线关系时,可以用Y=a+bX,表示两者的函数关系。其中X为自变量(independentvariable);Y是因变量(dependentvariable)。但在实际生活当中,由于其它因素的干扰,许多双变量之间的关系并不是严格的函数关系,不能用函数方程来准确反映,为了区别于两变量间的函数方程,我们称这种关系为回归关系,用直线方程来表示这种关系称为回归直线或线性回归。Yabx小插曲:为什么叫”回归“?F.GaltonK.Pearson二、回归参数的估计式中的是由自变量X推算应变量Y的估计值,a是回归直线在Y轴上的截距;b为样本的回归系数,即回归直线的斜率,表示当X变动一个单位时,Y平均变动b个单位。计算原理:最小二乘法,即保证各实测点到回归直线的纵向距离的平方和最小,并使计算出的回归方程最能代表实测数据所反映出的直线趋势。YabxY22ˆYYYabXXbYaXXXYllXXYYXXb2)())((例12-1某医师为了研究正常成年男性的运动后最大心率与年龄的关系,测得20名正常成年男性的有关数据,散点图如下。年龄504846444240383634心率200190180170160150140130年龄与运动后最大心率的回归方程41.8166.8381.24477.21226.8XXYYXYXYlll====-=1226.83.218381.2XYXXlbl-===-ˆ301.31243.218YX=-166.8-(-3.218)41.8301.3124a=´=回归系数和回归方程的意义及性质b的意义a的意义的意义的意义的意义bXaYˆYY-ˆniiiYY12ˆ-ˆYb的意义斜率(slope)=301.3124-3.218X年龄每增加1岁,其运动后最大心率平均减少3.218(次/分钟)b的单位为(Y的单位/X的单位)Yˆb>0,yincreasewiththeincreaseofXb<0,ydecreasewiththeincreaseofXb=0,nolinearcorrelationbetweentwovariables.0XYbistheregressioncoefficientandtheslopeoftheline。statisticalsignificanceofb:whenXchangedaunit,theYchangedbunitsonaverage.b>0b<0b=0a的意义bXaYˆa截距(intercept,constant)X=0时,Y的估计值a的单位与Y值相同当X可能取0时,a才有实际意义。估计值的意义X=46时,=153.2844,即年龄为46岁的正常成年男性,其平均运动后最大心率估计值为153.2844(次/分钟);给定X时,Y的估计值。当时,YˆYˆXXYY的意义YYˆYYˆ为残差:实测点到回归直线的纵向距离。1112131415165.05.56.06.5残差平方和(residualsumofsquares).综合表示点距直线的纵向距离。在所有的直线中,回归直线的残差平方和是最小的。(最小二乘)的意义2)ˆ(YY三、总体回归系数的假设检验与直线相关一样,直线回归方程也是从样本资料计算而得的,同样也存在着抽样误差问题。所以,需要对样本的回归系数b进行假设检验,以判断b是否从回归系数为零的总体中抽得。总体的回归系数用β表示。一般步骤1.H0:β=0回归方程无意义H1:β≠0回归方程有意义α=0.052.选择合适的假设检验方法(方差分析或t检验),计算统计量3.计算概率值P4.做出推论:统计学结论和专业结论方差分析法因变量总变异的分解XP(X,Y)YY)(YY)(YYY)(YYYY的总变异分解未引进回归时的总变异:(sumofsquaresaboutthemeanofY)引进回归以后的变异(剩余):(sumofsquaresaboutregression)回归的贡献,回归平方和:(sumofsquaresduetoregression)2)(YY2)(YY2)(YYY的总变异分解222ˆˆYYYYYY剩回总SSSSSS剩回总剩余标准差2ˆ2nYYsXY(1)扣除了X的影响后Y方面的变异;(2)引进回归...