相关分析与回归分析 - 1 - 第二讲 相关分析与回归分析 第一节 相关分析 1 .1 变量的相关性 1 .变量的相关性分两种,一种是研究两个变量X 与Y 的相关性,另一种是研究两组变量X1,X2,…,Xp 与Y1,Y2,…,Yq 之间的相关性。本节只研究前者,即两个变量之间的相关性;后者,即两组变量之间的相关称为典型相关,不在本节研究范围之内。 2 .两个变量X 与Y 的相关性研究,是探讨这两个变量之间的关系密切到什么程度,能否给出一个定量的指标。这个问题的难处在于“关系”二字,从数学角度看,两个变量X、Y 之间的关系具有无限的可能性,因此泛泛谈“关系”不会有什么出路。一个比较现实的想法是:确立一种“样板”关系,然后把 X、Y 的实际关系与“样板”关系比较,看它们“像”到了什么程度,给出一个定量指标。 3 .取什么关系做“样板”关系?线性关系。这是一种单调递增或递减的关系,在现实生活中广为应用;另外,现实世界中大量的变量服从正态分布,对这些变量而言,可以用线性关系或准线性关系构建它们之间的联系。 1 .2 相关性度量 1 .概率论中用相关系数(correlation coefficient)度量两个变量的相关程度。变量X 和 Y 的相关系数定义为: )()(),(),(YVarXVarYXCovYXCorr 其中 Cov (X,Y)是协方差,Var(X)和 Var(Y)分别是变量X 和 Y 的方相关分析与回归分析 - 2 - 差。相关系数Corr(X,Y)有性质: 1)1),(YXCorr; 2)1),(YXCorr当且仅当1}{bXaYP。而且当 Corr(X,Y)=1 时,有b>0,称为正相关;Corr(X,Y)=-1 时,有b<0,称为负相关。 特别,当Corr(X,Y)=0,称X 和Y 不相关,这时它们没有线性关系。 为区别以下出现的样本相关系数,有时也把这里定义的相关系数称为总体相关系数。可见相关系数是判断变量间线性关系的重要指标。 2.样本相关系数 实际问题中,两个变量X、Y 只能提供对应观察值: niYXii,...,2,1),( 我们也只能根据这个容量为n 的样本来判断变量X 和Y 的相关性达到怎样的程度。 由于协方差的估计量是: niiiXYYYXXn1))((11 方差的估计量是: niiYYniiXXYYnXXn1212)(11,)(11 所以取相关系数Corr(X,Y)的估计为: niiniiniiiYYXXXYXYYYXXYYXX12121)()())((= 这个估计称为样本相关系数,或 Pearson 相关系数。它能够根据样本观察值计算出两个变量相关系数的...