1/21第二讲相关分析与回归分析第一节相关分析1.1变量的相关性1.变量的相关性分两种,一种是研究两个变量X与Y的相关性
本节只研究前者,即两个变量之间的相关性;
2.两个变量X与Y的相关性研究,是探讨这两个变量之间的关系密切到什么程度,能否给出一个定量的指标
这个问题的难处在于“关系”二字,从数学角度看,两个变量X、Y之间的关系具有无限的可能性,一个比较现实的想法是:确立一种“样板”关系,然后把X、Y的实际关系与“样板”关系比较,看它们“像”到了什么程度,给出一个定量指标
3.取什么关系做“样板”关系
这是一种单调递增或递减的关系,在现实生活中广为应用;另外,现实世界中大量的变量服从正态分布,对这些变量而言,可以用线性关系或准线性关系构建它们之间的联系
1.2相关性度量1.概率论中用相关系数(correlationcoefficient)度量两个变量的相关程度
为区别以下出现的样本相关系数,有时也把这里定义的相关系数称为总体相关系数
可见相关系数是判断变量间线性关系的重要指标
2.样本相关系数我们也只能根据这个容量为n的样本来判断变量X和Y的相关性达到怎样的程度
2/21这个估计称为样本相关系数,或Pearson相关系数
它能够根据样本观察值计算出两个变量相关系数的估计值
和总体相关系数一样,如果0XY,称X和Y不相关
这时它们没有线性关系
多数情况下,样本相关系数取区间(1,1)中的一个值
相关系数的绝对值越大,表明X和Y之间存在的关系越接近线性关系
1.3相关性检验两个变量X和Y之间的相关性检验是对原假设H0:Corr(X,Y)=0的显著性进行检验
检验类型为t
如果H0显著,则X和Y之间没有线性关系
1.4计算样本相关系数Correlate\Bivariate例1数据data02,计算变量当前薪金、起始薪金、受教育年限和工作经验之间的样本相关系数