第七章相关和回归分析变量间的关系人们每时每刻都在关心事物之间的关系。比如,职业种类和收入之间的关系、政府投入和经济增长之间的关系、广告投入和经济效益之间的关系、治疗手段和治愈率之间的关系等等。这些都是二元的关系。还有更加复杂的诸多变量之间的相互关系,比如企业的固定资产、流动资产、预算分配、管理模式、生产率、债务和利润等诸因素的关系是不能用简单的一些二元关系所描述的。§7.1问题的提出对于现实世界,不仅要知其然,而且要知其所以然。顾客对商品和服务的反映对于企业是至关重要的,但是仅仅有满意顾客的比例是不够的;商家希望了解什么是影响顾客观点的因素,及这些因素如何起作用。类似地,医疗卫生部门不能仅仅知道某流行病的发病率,而且想知道什么变量影响发病率,以及如何影响。发现变量之间的统计关系,并且用此规律来帮助我们进行决策才是统计实践的最终目的。一般来说,统计可以根据目前所拥有的信息(数据)来建立人们所关心的变量和其他有关变量的关系。这种关系一般称为模型(model)。假如用Y表示感兴趣的变量,用X表示其他可能与Y有关的变量(X也可能是若干变量组成的向量)。则所需要的是建立一个函数关系Y=f(X)。这里Y称为因变量或被解释变量(dependentvariable,responsevariable),而X称为自变量,也称为解释变量(independentvariable,explanatoryvariable)。建立这种关系的过程就叫做回归(regression)。一旦建立了回归模型,除了对变量的关系有了进一步的定量理解之外,还可以利用该模型(函数)通过自变量对因变量做预测(prediction)。这里所说的预测,是用已知的自变量的值通过模型对未知的因变量值进行估计;它并不一定涉及时间先后。先看几个后面还要讨论的数值例子。例7.1有50个从初中升到高中的学生。为了比较初三的成绩是否和高中的成绩相关,得到了他们在初三和高一的各科平均成绩(数据在highschool.sav)。这两个成绩的散点图展示在下图中。50Ãûͬѧ³õÈýºÍ¸ßÒ»³É¼¨µÄÉ¢µãͼ³õÈý³É¼¨110100908070605040¸ßÒ»³É¼¨100908070605040(1)总体看来有个上升趋势;即初三时成绩相对较高的学生,在高一时的成绩也较高。(2)但对于具体个人来说,大约有一半的学生的高一平均成绩比初三时下降,而另一半没有变化或有进步。目前的问题是怎么判断这两个变量是否相关、如何相关及如何度量相关?能否以初三成绩为自变量,高一成绩为因变量来建立一个回归模型以描述这样的关系,或用于预测。该数据中,除了初三和高一的成绩之外,还有一个定性变量(没有出现在上面的散点图中)。它是学生在高一时的家庭收入状况;它有三个水平:低、中、高,分别在数据中用1、2、3表示。122711N=¼ÒÍ¥ÊÕÈë321¸ßÒ»³É¼¨110100908070605040303925122711N=¼ÒÍ¥ÊÕÈë321¸ßÒ»³É¼¨Óë³õÈý³É¼¨Ö®²î3020100-10-20-30为研究家庭收入情况对学生成绩变化的影响,下面点出两个盒形图,左边一个是不同收入群体的高一成绩的盒形图,右边一个是不同收入群体的高一和初三成绩之差的盒形图。可以看出收入高低对高一成绩稍有影响,但不如收入对成绩的变化(高一和初三成绩之差)的影响那么明显。到底学生在高一的家庭收入对成绩有影响吗?是什么样的影响?是否可以取初三成绩(这是定量变量)或(和)家庭收入(定性变量)为自变量,而取高一成绩为因变量,来建立一个描述这些变量之间关系的回归模型呢?例7.2这是200个不同年龄和性别的人对某项服务产品的认可的数据(logi.sav)。这里年龄是连续变量,性别是有男和女(分别用1和0表示)两个水平的定性变量,而变量观点则为包含认可(用1表示)和不认可(用0表示)两个水平的定性变量(见下页数据)。想要知道的是年龄和性别对观点有没有影响,有什么样的影响,以及能否用统计模型表示出这个关系。年龄和观点的散点图(左)和性别与观点的条形图观点(0为不认可,1为认可)年龄80706050403020101.21.0.8.6.4.20.0-.2性别(0:女,1:男)1.00.00Count120100806040200OPINION.001.00这里...