几种常见的缺失数据插补方法(一)个案剔除法(ListwiseDeletion)最常见、最简单的处理缺失数据的方法是用个案剔除法(listwisedeletion),也是很多统计软件(如SPSS和SAS)默认的缺失值处理方法
在这种方法中如果任何一个变量含有缺失数据的话,就把相对应的个案从分析中剔除
如果缺失值所占比例比较小的话,这一方法十分有效
至于具体多大的缺失比例算是“小”比例,专家们意见也存在较大的差距
有学者认为应在5%以下,也有学者认为20%以下即可
然而,这种方法却有很大的局限性
它是以减少样本量来换取信息的完备,会造成资源的大量浪费,丢弃了大量隐藏在这些对象中的信息
在样本量较小的情况下,删除少量对象就足以严重影响到数据的客观性和结果的正确性
因此,当缺失数据所占比例较大,特别是当缺数据非随机分布时,这种方法可能导致数据发生偏离,从而得出错误的结论
(二)均值替换法(MeanImputation)在变量十分重要而所缺失的数据量又较为庞大的时候,个案剔除法就遇到了困难,因为许多有用的数据也同时被剔除
围绕着这一问题,研究者尝试了各种各样的办法
其中的一个方法是均值替换法(meanimputation)
我们将变量的属性分为数值型和非数值型来分别进行处理
如果缺失值是数值型的,就根据该变量在其他所有对象的取值的平均值来填充该缺失的变量值;如果缺失值是非数值型的,就根据统计学中的众数原理,用该变量在其他所有对象的取值次数最多的值来补齐该缺失的变量值
但这种方法会产生有偏估计,所以并不被推崇
均值替换法也是一种简便、快速的缺失数据处理方法
使用均值替换法插补缺失数据,对该变量的均值估计不会产生影响
但这种方法是建立在完全随机缺失(MCAR)的假设之上的,而且会造成变量的方差和标准差变小
(三)热卡填充法(Hotdecking)对于一个包含缺失值的变量,热卡填充法在数据