2.3.1-2前面我们学习了怎样对收集来的数据进行分析:频率分布图离散程度集中趋势下面我们来介绍一中更为常见的分析方法:小明,你数学成绩不太好,物理怎么样?也不太好啊.学不好数学,物理也是学不好的?????...你认为老师的说法对吗?事实上,我们在考察数学成绩对物理成绩影响的同时,还必须考虑到其他的因素:爱好,努力程度。如果单纯从数学对物理的影响来考虑,就是考虑这两者之间的相关关系我们在生活中,碰到很多相关关系的问题:物理成绩数学成绩学习兴趣花费时间其他因素商品销售收入广告支出经费?粮食产量施肥量?付出收入?人体脂肪含量年龄?以上几种问题中的两个变量之间的相关关系,我们都可以根据自己的生活,学习经验作出相应的判断,“规律是经验的总结”,不管你多有经验,只凭经验办事,还是很容易出错的,在寻找变量间的相关关系时,我们需要一些更为科学的方法来说明问题.在寻找变量间的相关关系时,统计同样发挥了非常重要的作用,我们是通过收集大量的数据,对数据进行统计分析的基础上,发现其中的规律,才能对它们之间的关系作出判断.下面我们通过具体的例子来分析在一次对人体脂肪含量和年龄的关系研究中,研究人员获得了一份样本数据:根据上述数据,人体的脂肪含量与年龄之间有什么样的关系?说明:各个年龄阶段的脂肪数据是这个年龄样本的平均数年龄脂肪239.52717.83921.24125.9454927.526.35028.25329.65430.25631.45730.8年龄脂肪5833.56035.26134.6从上表发现,对某个人不一定有此规律,但对很多个体放在一起,就体现出“人体脂肪随年龄增长而增加”这一规律.而表中各年龄对应的脂肪数是这个年龄人群的样本平均数.我们也可以对它们作统计图、表,对这两个变量有一个直观上的印象和判断.下面我们以年龄为横轴,脂肪含量为纵轴建立直角坐标系,作出各个点,称该图为散点图。如图:O20253035404550556065年龄脂肪含量510152025303540通过分析、观察可以看到:随着年龄的增长,人体脂肪含量越高,这表明两个变量之间的确存在一定的关系。从散点图可以看出:所有的点大致在一条直线附近波动,我们称这两个变量间存在线性相关关系,这条直线叫做回归直线(regressionline)递增我们叫它们正相关递减我们叫它们负相关O20253035404550556065年龄脂肪含量510152025303540从刚才的散点图发现:年龄越大,体内脂肪含量越高,点的位置散布在从左下角到右上角的区域。称它们成正相关。但有的两个变量的相关,如下图所示:如高原含氧量与海拔高度的相关关系,海平面以上,海拔高度越高,含氧量越少。作出散点图发现,它们散布在从左上角到右下角的区域内。又如汽车的载重和汽车每消耗1升汽油所行使的平均路程,称它们成负相关.O如果可以求出这条直线的方程(回归方程),那么我们就可以比较清楚的了解年龄与体内脂肪含量的相关性.这条直线就可以作为两个变量具有线性相关关系的代表方案1、先画出一条直线,测量出各点与它的距离,再移动直线,到达一个使距离的和最小时,测出它的斜率和截距,得回归方程。20253035404550556065年龄脂肪含量0510152025303540如图:方案2、在图中选两点作直线,使直线两侧的点的个数基本相同。20253035404550556065年龄脂肪含量0510152025303540方案3、如果多取几对点,确定多条直线,再求出这些直线的斜率和截距的平均值作为回归直线的斜率和截距。而得回归方程。如图•我们还可以找到更多的方法,但这些方法都可行吗?科学吗?准确吗?怎样的方法是最好的?20253035404550556065年龄脂肪含量0510152025303540我们把由一个变量的变化去推测另一个变量的方法称为回归方法。(二)回归直线实际上,求回归直线的关键是如何用数学的方法来刻画”从整体上看,各点到此直线的距离最小”.我们上面给出的几种方案可靠性都不是很强,人们经过长期的实践与研究,已经找到了计算回归方程的斜率与截距的方法:xbyaxnxyxnxxxyyxxbniiniiiniiniiiy,)())((1221121以上公式的推导较复杂,故不作推导,但它的原理较为简单:即各点到该直线的距离的平方和最小,这一方法叫最小二乘法。于是得计算回归方程的斜率和截距的一般公式.人体的脂肪含量与年龄的相关...