数据的分析从总体中抽取样本,收集测定的数据,这些数据总是参差不齐的,即具有散差
我们需要对收集的数据进行整理和分析,然后才能对总体作出推测和判断
一、数据的种类数据大体可以分为计量值和计数值二种
所谓计数值数据,是指1,2,3,……这种非连续性取值的数据,如一批产品的不合格品数,缺陷的个数以及工厂的事故发生件数等
把不合格数用全部产品所除得到的不合格率,仍是计数值
而计量值数据,是指一些可以连续取值的数据
如钢材的厚度、抗拉强度,零件的尺寸等测定值都属于计量值数据
计量值与计数值数据差别,决定了数据所反映的统计的性质不同,进而数据的处理方法也有变化
例如,计量数据属于连续概率分布,最典型的使正态分布;而计数值数据属于离散概率分布,最典型的是二项分布和泊松分布
二、数据的分布即时在同样的条件下制造的产品,其质量都会有差别,故我们收集到的数据总是大小不等的,称这种数据的不均一性为具有散差
如果把数据控制在一定的范围哪,数据间的散差就会有某种规律性,我们称之为分布
可以构造频数分布来了解分布状态
们如下图所示,为某一个样本所反映的频数分布图
(相当于直方图)从两个图可以看出两个分布的不同,也很容易看出两个样本的差别,进而反映了总体的分布状况
三、数据分布的定量表示上面的频数直方图,可以用来观察数据的大致离散情况即分布的形状,但是得不到数量方面的信息
特别是比较两个以上的分布时,尽管可以凭视觉观察出分布状态上的差异,却不能定量地求出他们的差别
如果能把分布状态的特性予以数量化,就便于比较
一般需要有表示数据整体即分布中心位置(中心趋向)和离散程度的尺度
前者可以用平均值,后者可以用标准偏差
有时,还需要从数量上表示分布状态的偏斜程度(可用偏斜度)以及表示分布峰顶的陡峭程度(可用陡度)1.中心位置的表示表示中心位置的量有平均值、中位值、最多值、中值以及众数等
最常使用平均值