L/O/G/O2012年3月20日数据分析——描述统计数据分析——描述统计x前言前言•在做数据分析的时候,一般首先要对数据进行描述性统计分析,以便于描述测量样本的各种特征及其所代表的总体的特征以及发现其数据的内在规律,再选择进一步分析的方法。•描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计图形。目录目录集中趋势离散趋势探索分析集中趋势集中趋势•定义在统计学中是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。•度量方法集中趋势的度量包括了均值(mean),中位数(median),众数(mode)。均值、中位数、众数用那一个去度量平均水平呢?以及为什么?均值、中位数、众数的渊源均值、中位数、众数的渊源定义均值:表示一系列数据或统计总体的平均特征的值中位数:将总体单位的某一数量标志的各个数值按照大小顺序排列,居于中间位置的那个数值就是中位数。众数:众数是指变量数列中出现次数最多或频率最大的变量值。1.1.众数、中位数、算术平均数的比较众数、中位数、算术平均数的比较1.1.众数、中位数、算术平均数的比较众数、中位数、算术平均数的比较均值比中位数、众数对数据的概括能力要强。相对于中位数和众数而言均值对数据的灵敏度较大。均值比中位数、众数偏于计算和分析。均值的抗耐性较差,极容易受个别和少数极端值的影响。均值适用范围比中位数、众数窄。2.众数、中位数、算术平均数数值关系2.众数、中位数、算术平均数数值关系•(一)对称分布情况下•(二)偏态分布情况下数据类型与集中趋势测度值数据类型与集中趋势测度值※为该数据类型最适合用的测度值.均值、中位数、众数的代表性衡量及使用均值、中位数、众数的代表性衡量及使用•前面我们知道均值、中位数、众数的定义不同,特点和适用范围不同,在衡量这些平均指标的代表性时要根据不同的情况加以具体分析。•1.对于不同的总体在平均指标相等的情况下,我们一般用总体的标准差这个指标来衡量这些平均指标的代表性大小,一般来说,标准差较大的总体其平均指标的代表性较小。•2.对于不同的总体在其平均指标不相等的情况下,我们一般用离散系数来衡量这些平均指标的代表性,一般来说,这时离散系数较小的总体其平均指标的代表性较大。•3.对于同一总体中算术平均数、中位数、众数的代表性高低的衡量。由于这些起代表意义的平均指标本身所具有的特点不同,应用范围不同,在描述和反映不同现象时的代表性也不同,只有根据它们的不同特点,正确恰当地根据不同的情况选择不同的平均指标,才能够提高这些平均指标的代表性,更客观、准确地反映和描述事物现象的本质特征。例子例子找一个能够代表二次装修年限的代表性指标,均值、中位数、众数,哪一个更合理?作业3.savStatistics两次装修间隔时间NValid2,700Missing0Mean6.70Std.ErrorofMean0.064Median6.00Mode10Std.Deviation3.337数据的均值是6.70,中位数是6.众数是10。如果一只脚放在摄氏1度的水里,另一只脚放在摄氏79度的水里,平均水温40度。你感觉舒服极了!?这只是一个笑话。说明了只了解数据的集中趋势是不够的。还需要看数据的离散程度。离散趋势离散趋势1.离散趋势的各测度值是对数据离散程度所做的描述2.反映各变量值远离其中心值的程度,因此也称为离中趋势3.从另一个侧面说明了集中趋势测度值的代表程度。离散趋势——测度指标离散趋势——测度指标•1、全距•2、四分位差•3、平均差•4、标准差•5、方差•6、离散系数四分位差是四分位数中间两个分位之差。平均差是总体各单位标志值对其算术平数的离差绝对值的算术平均数。总体各单位标志值对其算术平均数离差平方的算术平均数的平方根又称均方差或均方根差标准差的平方即为方差一组变量值的最大值与最小值之差变异系数变异系数•定义:标准差与平均数的比值称为变异系数,是衡量资料中各观测值变异程度的另一个统计量。记为C.V。•作用:反映单位均值上的离散程度,常用在两个总体均值不等的离散程度的比较上。若两个总体的...