第七章相关和回归分析变量间的关系人们每时每刻都在关心事物之间的关系
比如,职业种类和收入之间的关系、政府投入和经济增长之间的关系、广告投入和经济效益之间的关系、治疗手段和治愈率之间的关系等等
这些都是二元的关系
还有更加复杂的诸多变量之间的相互关系,比如企业的固定资产、流动资产、预算分配、管理模式、生产率、债务和利润等诸因素的关系是不能用简单的一些二元关系所描述的
1问题的提出对于现实世界,不仅要知其然,而且要知其所以然
顾客对商品和服务的反映对于企业是至关重要的,但是仅仅有满意顾客的比例是不够的;商家希望了解什么是影响顾客观点的因素,及这些因素如何起作用
类似地,医疗卫生部门不能仅仅知道某流行病的发病率,而且想知道什么变量影响发病率,以及如何影响
发现变量之间的统计关系,并且用此规律来帮助我们进行决策才是统计实践的最终目的
一般来说,统计可以根据目前所拥有的信息(数据)来建立人们所关心的变量和其他有关变量的关系
这种关系一般称为模型(model)
假如用Y表示感兴趣的变量,用X表示其他可能与Y有关的变量(X也可能是若干变量组成的向量)
则所需要的是建立一个函数关系Y=f(X)
这里Y称为因变量或被解释变量(dependentvariable,responsevariable),而X称为自变量,也称为解释变量(independentvariable,explanatoryvariable)
建立这种关系的过程就叫做回归(regression)
一旦建立了回归模型,除了对变量的关系有了进一步的定量理解之外,还可以利用该模型(函数)通过自变量对因变量做预测(prediction)
这里所说的预测,是用已知的自变量的值通过模型对未知的因变量值进行估计;它并不一定涉及时间先后
先看几个后面还要讨论的数值例子
1有50个从初中升到高中的学生