线性回归模型散点图在图中,横坐标代表一个变量,纵坐标代表另一个变量,将各对资料依次用坐标点绘于图上,便形成了散点图。回归分析(Regressionanalysis)是一个数学模型或函数的构造过程。利用这个数学模型或函数,研究人员可以根据一个变量预测或确定另一个变量。最基本的回归模型被称为简单回归(Simpleregression),模型中只包括两个变量。研究一个连续性变量(因变量)的取值随着其它变量(自变量)的数值变化而变化的趋势,并在散点图上找到这样一条直线。因此,回归分析是研究变量之间的因果关系的。回归分析(Regressionanalysis)通过回归方程解释两变量之间的关系显的更为精确,可以计算出自变量改变一个单位时因变量平均改变的单位数量,这是相关分析无法做到的除了描述两变量的关系以外,通过回归方程还可以进行预测和控制,这在实际工作中尤为重要回归分析(Regressionanalysis)回归分析假定自变量对因变量的影响强度是始终保持不变的,如公式所示:ŷ=a+bx对于因变量的预测值可以被分解成两部分:常量(constant):x取值为零时y的平均估计量,可以被看成是一个基线水平回归部分:它刻画因变量Y的取值中,由反应变量Y与自变量X的线性关系所决定的部分,即可以由X直接估计的部分回归分析(Regressionanalysis)ŷ=a+bxŷ:y的估计值(所估计的平均水平)表示给定自变量的取值时,根据公式算得的y的估计值a:常数项,表示自变量取值均为0时因变量的平均水平,即回归直线在y轴上的截距多数情况下没有实际意义,研究者也不关心b:回归系数(CoefficientofRegression),在多变量回归中也称偏回归系数。自变量x改变一个单位,y估计值的改变量。即回归直线的斜率(slope)。回归分析(Regressionanalysis)估计值和每一个实测值之间的差被称为残差(ei)。它刻画了因变量y除了自变量x以外的其它所有未进入该模型,或未知但可能与y有关的随机和非随机因素共同引起的变异,即不能由x直接估计的部分。为了方程可以得到估计,我们往往假定ei服从正态分布N(0,σ2)。yi=a+bx+eiei~N(0,σ2)最小二乘估计(Leastsquaresestimation)回归直线方程是根据最小二乘法原理来建立的,即回归方程中的参数a和b是通过最小二乘原理估计出来的。最小二乘法原理的思想是:各点到待估直线的离差平方和(Residualsumofsquare)为最小。可以证明,最小二乘法是通过样本对总体线性回归的最好的估计方法。适用条件线性趋势:如果不是,则不能采用线性回归来分析。这可以通过散点图来加以判断独立性:y的取值相互独立,实际上就是要求残差间相互独立,不存在自相关,否则应当采用自回归模型来分析正态性:就自变量的任何一个线性组合,因变量y均服从正态分布,这实际上是要求残差ei服从正态分布方差齐性:就自变量的任何一个线性组合,因变量y的方差均相同,实质就是要求残差的方差齐适用条件样本量在数学上,样本量为n时可以建立含有n-2个自变量的线性回归模型,但这种模型是毫无实用价值的对自变量的检验,以及回归系数的估计都是极不稳定的根据经验,记录数应当在希望分析的自变量数的20倍以上为宜。分析步骤做出散点图,观察变量间的趋势考察数据的分布,进行必要的预处理。即分析变量的正态性、方差齐等问题进行直线回归分析分析步骤残差分析残差间是否独立(Durbin-Watson检验)残差分布是否为正态(图形或统计量)强影响点的诊断多重共线性问题的判断这三步往往混在一起,难以完全分出先后分析实例上海医科大学儿科医院研究某种代乳粉的营养价值是用大白鼠做试验,得大白鼠进食量Cg和体重增量之间的关系的原始数据见dataR-1.sav如下,试进行回归分析。决定系数R方的取值为0~1,它的含义就是自变量所能解释的方差在总方差中所占的百分比,取值越大说明模型的效果越好。就是决定系数越大该因素所起的作用越大。对回归系数作检验方差分析F值为60.197,P值小于0.05,所以该模型是有意义的这里即表明该自变量的回归系数是有统计意义的a=-l7.357,b=0.222回归模型:weight=-17.357+0.222×feedt...