第十一章相关与回归分析变量间关系的度量一元线性回归分析第一节变量间关系的度量变量间的关系相关关系的描述与测度一、变量间的关系在生产经营活动中,我们经常要对变量之间的关系进行分析。比如,在企业生产中,我们要对影响生产成本的各种因素进行分析,以达到控制成本的目的;在农业生产中,我们需要研究农作物产量与施肥量的关系,以便分析施肥量对产量的影响,进而确定合理的施肥量;商业活动中,我们需要分析广告费支出与销售量之间的关系,进而通过广告费支出来预测销售量等。变量之间的关系形态可分为两种类型:函数关系和相关关系。我们比较熟悉的一、变量间的关系例1:某种产品的销售额和销售量之间的关系。设销售额为y,销售量为x,销售价格为p,则x与y之间的关系可表示为y=px。这就是说,在销售价格不变的情况下,对于该商品的某一销售量,总有一个销售额与之对应,即销售额完全由销售量所确定,二者之间为线性函数关系。例2:企业的原材料消耗额(y)与产量(x1),单位产品消耗(x2),原材料价格(x3)之间的关系可表示为y=x1x2x3。这里的y与x1、x2、x3之间是一种确定的函数关系,但它们不是线性函数关系。函数关系是一一对应的确定关系。但实际问题中,变量之间的关系往往不那么简单。例如:我们考察家庭储蓄与家庭收入这两个变量,它们之间不存在完全确定的关系。定义1:我们把变量之间存在的不确定的数量关系称为相关关系。例3:从遗传学角度看,子女的身高(y)与其父母的身高(x)有很大关系。一般来说,父母身高较高时,其子女的身高通常也高,父母身高较低时,其子女的身高通常也较低。但实际情况并不完全如此,因为它们之间不是完全确定的关系。显然,子女的身高并不完全由父母身高一个因素所决定,还受其他许多因素的影响,因此二者之间属于相关关系。总结:从上面的例子可以看出,相关关系的特点是:一个变量的取值不能由另一个变量唯一确定,当变量x取某个值时,变量y的取值可能有几个。对这种关系不确定的变量显然不能用函数关系进行描述,但也不是无规律可循。通过大量数据的观察与研究,我们会发现许多变量之间确定存在着一定的客观规律。如:平均来说,父母身高较高时,其子女的身高一般也较高;收入水平高的家庭,其家庭储蓄一般也较多。相关与回归分析正是描述与探索这类变量之间关系及其规律的统计方法。二、相关关系的描述与测度(一)散点图(二)相关系数(一)散点图相关分析就是对两个变量之间线性关系的描述与度量。对于两个变量x和y,通过观察或试验我们可以得到若干组数据,记为(xi,yi)(i=1,2,3…)。相关分析所要解决的问题是,根据这些数据确定变量之间是否存在相关关系,如果存在的话,如何描述出它们之间的关系并对其关系强度进行测度。定义2:用坐标的水平轴代表变量x,纵轴代表因变量y,每组数据(xi,yi)在坐标系中用一个点表示,n组数据在坐标系中形成的n个点称为散点,由坐标及散点形成的二维数据图称为散点图。(e)非线性相关(f)不相关不同形态的散点图例:一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例提高,这给银行业务的发展带来压力。为弄清楚不良贷款形成的原因,研究人员希望利用银行业务的有关的有关数据作些定量分析,以便找出控制不良贷款的办法。下表是该银行所属25家分行2002年的有关业务数据。某商业银行2002年的主要业务数据研究人员想知道,不良贷款是否与与贷款余额、应收贷款,贷款项目的多少、固定资产投资等因素有关?是什么样的关系?关系强度如何?由散点图可以看出:不良贷款与贷款余额、应收贷款、贷款项目个数、固定资产投资额之间都具有一定的线性关系,但从各散点的分布情况看,与贷款余额线性关系比较密切,而与固定资产投资额关系最不密切。(二)相关系数通过散点图可以判断两个变量之间有无相关关系,并对变量间的关系形态作出大致描述,但散点图不能准确反映变量之间的关系密切程度。因此,为准确度量两个变量...