第4章样本描述与数据准备样本数据采集到以后,不能立即用于数据分析,因为样本可能存在错误数据、缺失数据或者异常数据,或者采集的数据不符合要求,不具有代表性,这些情况会直接影响到分析结果的准确性和准确性
所以,进行数据分析以前,需要首先了解一下样本数据的基本特征,并对缺失值和异常值等进行适当的处理
第一节样本的描述一、基本数学知识样本数据采集到以后,常用一些统计量描述原始数据的集中程度和离散状况,对数据的总体特征进行归纳
(1)描述中心趋势的统计量算术平均数:样本数据的总和除以数据个数得到算术平均数,算术平均数是描述样本数据中心趋势最常用的统计量,因为具有计算简便、稳定的优点
中位数:将样本数据(假设有个数)按照升序或者降序排列,如果为奇数,则数列中间的数为中位数;如果为偶数,则中位数为居中两数的均值
中位数不如算术平均数稳定,即在同一总体中取相同大小的不同样本时,中位数的变化比算术平均数大
但是中位数不受极值的影响,因而在经济统计中应用较多
众数:样本数据中出现频数最大的那个数称为众数
众数容易理解,但是不容易确定,与中位数一样,不受极值的影响
截尾平均数:将样本数据进行排序后,按照一定的比率去掉两端的某些数,对剩下的数据求平均值,得到截尾平均数
常用的截尾平均数有5%截尾平均数,即两端去掉5%的数据以后剩余的数求平均数
截尾平均数与算术平均数相比,较少受极值的影响
几何平均数:个非负数的几何平均数可以表示为:几何平均数应用于任何两个相邻数之比为常数或者接近常数的数据资料
调和平均数:个数的调和平均数可以表示为:其它中心趋向的度量还有某种四分数、十分数和百分数的平均值
其中,分位数是随机变量的一种数字特征,假设连续型随机变量的密度函数是,给定常数,若满足:则称为的分位数
(2)描述离散趋势的统计量仅仅利用描述中心趋势的统计量,不能够反映整个数据集合的分布状况,具有不同分布的数