12.2.2用样本的数字特征估计总体的数字特征1.众数、中位数、平均数2.标准差2众数、中位数、平均数3一众数、中位数、平均数的概念中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.众数:在一组数据中,出现次数最多的数据叫做这组数据的众数.众数、中位数、平均数都是描述一组数据的集中趋势的特征数,只是描述的角度不同,其中以平均数的应用最为广泛.)xxx(n1n21平均数:一组数据的算术平均数,即x=4练习:在一次中学生田径运动会上,参加男子跳高的17名运动员的成绩如下表所示:成绩(单位:米)1.501.601.651.701.751.801.851.90人数23234111分别求这些运动员成绩的众数,中位数与平均数解:在17个数据中,1.75出现了4次,出现的次数最多,即这组数据的众数是1.75.上面表里的17个数据可看成是按从小到大的顺序排列的,其中第9个数据1.70是最中间的一个数据,即这组数据的中位数是1.70;5这组数据的平均数是答:17名运动员成绩的众数、中位数、平均数依次是1.75(米)、1.70(米)、1.69(米).6频率组距0.10.20.30.40.5O0.511.522.533.544.5月平均用水量(t)例如,在上一节调查的100位居民的月均用水量的问题中,从这些样本数据的频率分布直方图可以看出,月均用水量的众数是2.25t.如图所示:二、众数、中位数、平均数与频率分布直方图的关系1、众数在样本数据的频率分布直方图中,就是最高矩形的中点的横坐标。72、在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数,因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位数的值。下图中虚线代表居民月均用水量的中位数的估计值,此数据值为2.02t.频率组距0.10.20.30.40.5O0.511.522.533.544.5月平均用水量(t)中位数是把直方图分成两个面积相等部分的平行于纵轴的直线横坐标83、平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和。下图显示了居民月均用水量的平均数:x=2.02频率组距0.10.20.30.40.5O0.511.522.533.544.5月平均用水量(t)9练习已知一组数据的频率分布直方图如下,求众数、中位数、平均数。900.030频率/组距频率/组距频率/组距O506070801000.0050.0100.0150.040数据频率/组距解:由频率分布直方图可知,众数为65,中位数为65,平均数为55×0.3+65×0.4+75×0.15+85×0.1+95×0.05=6710三三种数字特征的优缺点1、众数体现了样本数据的最大集中点,但它对其它数据信息的忽视使得无法客观地反映总体特征.如上例中众数是2.25t,它告诉我们,月均用水量为2.25t的居民数比月均用水量为其它数值的居民数多,但它并没有告诉我们多多少.112、中位数是样本数据所占频率的等分线,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点。如上例中假设有某一用户月均用水量为10t,那么它所占频率为0.01,几乎不影响中位数,但显然这一极端值是不能忽视的。123、由于平均数与每一个样本的数据有关,所以任何一个样本数据的改变都会引起平均数的改变,这是众数、中位数都不具有的性质。也正因如此,与众数、中位数比较起来,平均数可以反映出更多的关于样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计时可靠性降低。13标准差14如:有两位射击运动员在一次射击测试中各射靶10次,每次命中的环数如下:甲:78795491074乙:9578768677如果你是教练,你应当如何对这次射击作出评价?如果看两人本次射击的平均成绩,由于77乙甲x,x两人射击的平均成绩是一样的.那么两个人的水平就没有什么差异吗?15(甲)45678910环数频率0.10.20.3频率(乙)456789100.10.20.30.4环数直观上看,还是有差异的.如:甲成绩比较分散,乙成绩相对集中(如上图所示).因此,我们还需要从另外的角度来考察这两组数据.例如:在作统计图表时提到过的极差.甲的环数极差=10-4=6乙的环数极差=9-5=4.但是极差对极端值非常敏感17考察样本数据的分散程度,最常用的统计量是标准差显然,标准差越大,数据的离散程度...