第七章简单相关与回归卫生统计学教研室24/12/2724/12/27直线相关:又称简单相关(simplecorrelation),用于描述两个变量之间的线性相关程度。经典相关分析要求X与Y都是随机变量,而且服从双变量正态分布。相关关系的统计量使人们对变量间的相关关系是否成立、相关的性质和强弱等有了量化依据。一、线性相关(linearcorrelation)相关系数(correlationcoefficient),又称积差相关系数或Pearson相关系数(软件中常用此名称)以及spearman相关系数;定量描述线性相关程度的一个常用指标,说明相关的密切程度和方向。24/12/27线性相关(linearcorrelation)22()()()()XXYYrXXYYXXYY表示的平均数,表示的平均数。计算公式相关系数的特点:相关系数r是表示两个随机变量之间直线相关强度和方向的统计量,是一个无量纲的数值,取值范围-1≤r≤1;r的正负值表示两变量之间直线相关的方向,即r>0为正相关,r<0为负相关,r=0为零相关;r与回归系数b的符号相同;r的绝对值大小表示两变量之间直线相关的密切程度,|r|越接近于1,说明密切程度越高,|r|越接近于0,说明密切程度越低。24/12/27线性相关(linearcorrelation)相关系数的假设检验:r≠0原因:①由于抽样误差引起,ρ=0②存在相关关系,ρ≠0检验方法:①直接查表法(r界值表),②t检验;24/12/27公式20=-212rrrrtvnSrn=,Sr----相关系数的标准误线性相关(linearcorrelation)二、线性回归(linearregression)•定义用直线方程表达X(自变量,independentvariable)和Y(应变量,dependentvariables)之间的数量关系。•是Y(实测值)的预测值(predictivevalue),b是直线的斜率,即X每变化一单位,Y相应的变化b个单位。a为截距,即X为0时Y值的大小。24/12/27^Y二、线性回归(linearregression)直线回归的前提假设(LINE)•线性Linearity反应变量均数与X间呈线性关系:Y|X=α+X•独立Independence每一观察值之间彼此独立•正态Normality对于任何给定的X:Y均服从正态分布•等方差Equalvariance对于任何X值,随机变量Y的标准差Y|X相等24/12/27线性回归(linearregression)•回归直线的建立主要是基于最小二乘法(least-squares,LS),即各实测点与拟合直线之间纵向距离的平方和最小。•线性回归的主要运用:统计预测与统计控制统计预测:给定X值,估计Y;统计控制(逆估计):要求Y在一定范围内波动,可通过X的取值来实现。24/12/27二、线性回归(linearregression)注意:•做直线回归之前,先做散点图,是确定两变量之间是否有关系的最简单的好方法。•回归系数(b)的假设检验判断直线回归方程是否成立,需要检验总体回归系数β是否为0。方法一:t检验两种方法等价,方法二:F检验只有当β≠0,才能认为直线回归方程成立(具有统计学意义)。24/12/27bbtSMSFMS回归剩余tF24/12/271.资料:相关——X、Y均为随机变量,且服从双变量正态分布回归——Y为正态随机变量,X为固定的非随机变量2.意义与应用:回归——反映两变量间的依存关系相关——反映两变量间的相互关系3.回归系数与原度量单位有关,而相关系数无关区别三、相关与回归的区别和联系24/12/27联系相关与回归的区别和联系1.根据分析目的选择变量及统计方法24/12/27直线相关用于说明两变量之间直线关系的方向和密切程度,X与Y没有主次之分直线回归则进一步用于定量刻画应变量Y对自变量X在数值上的依存关系,其中应变量的定夺主要依专业要求而定,可以考虑把易于精确测量的变量作为X,另一个随机变量作Y例如用身高估计体表面积两个变量的选择一定要结合专业背景,不能把毫无关联的两种现象勉强作回归或相关分析四、相关与回归应用的注意事项2.进行相关、回归分析前应绘制散点图—第一步24/12/27散点图可考察两变量是否有直线趋势可发现异常点(outlier)散点图对异常点的识别与处理需要从专业知识和现有数据两方面来考虑,结果可能是现有回归模型的假设错误需要改变模型形式,也可能是抽样误差造成的一次偶然结果甚至过失误差。需要认真核对原始数据并检查其产生过程认定是过失误差,或者通过重复...