相关分析与回归分析 - 1 - 第二讲 相关分析与回归分析 第一节 相关分析 1 .1 变量的相关性 1 .变量的相关性分两种,一种是研究两个变量X 与Y 的相关性,另一种是研究两组变量X1,X2,…,Xp 与Y1,Y2,…,Yq 之间的相关性
本节只研究前者,即两个变量之间的相关性;后者,即两组变量之间的相关称为典型相关,不在本节研究范围之内
2 .两个变量X 与Y 的相关性研究,是探讨这两个变量之间的关系密切到什么程度,能否给出一个定量的指标
这个问题的难处在于“关系”二字,从数学角度看,两个变量X、Y 之间的关系具有无限的可能性,因此泛泛谈“关系”不会有什么出路
一个比较现实的想法是:确立一种“样板”关系,然后把 X、Y 的实际关系与“样板”关系比较,看它们“像”到了什么程度,给出一个定量指标
3 .取什么关系做“样板”关系
这是一种单调递增或递减的关系,在现实生活中广为应用;另外,现实世界中大量的变量服从正态分布,对这些变量而言,可以用线性关系或准线性关系构建它们之间的联系
1 .2 相关性度量 1 .概率论中用相关系数(correlation coefficient)度量两个变量的相关程度
变量X 和 Y 的相关系数定义为: )()(),(),(YVarXVarYXCovYXCorr 其中 Cov (X,Y)是协方差,Var(X)和 Var(Y)分别是变量X 和 Y 的方相关分析与回归分析 - 2 - 差
相关系数Corr(X,Y)有性质: 1)1),(YXCorr; 2)1),(YXCorr当且仅当1}{bXaYP
而且当 Corr(X,Y)=1 时,有b>0,称为正相关;Corr(X,Y)=-1 时,有b