3■■■■■弓■■MH■CompanyDocumentnumber:WTUT-WT88Y-W8BBGB-BWYTT-19998关于数据缺失问题的总结造成数据缺失的原因在各种实用的数据库中,属性值缺失的情况经常发全甚至是不可避免的
因此,在大多数情况下,信息系统是不完备的,或者说存在某种程度的不完备
造成数据缺失的原因是多方面的,主要可能有以下几种:1)有些信息暂时无法获取
例如在医疗数据库中,并非所有病人的所有临床检验结果都能在给定的时间内得到,就致使一部分属性值空缺出来
又如在申请表数据中,对某些问题的反映依赖于对其他问题的回答
2)有些信息是被遗漏的
可能是因为输入时认为不重要、忘记填写了或对数据理解错误而遗漏,也可能是由于数据采集设备的故障、存储介质的故障、传输媒体的故障、一些人为因素等原因而丢失了
3)有些对象的某个或某些属性是不可用的
也就是说,对于这个对象来说,该属性值是不存在的,如一个未婚者的配偶姓名、一个儿童的固定收入状况等
4)有些信息(被认为)是不重要的
如一个属性的取值与给定语境是无关的,或训练数据库的设计者并不在乎某个属性的取值(称为dont-carevalue)[37]
5)获取这些信息的代价太大
6)系统实时性能要求较高,即要求得到这些信息前迅速做出判断或决策
2数据缺失机制在对缺失数据进行处理前,了解数据缺失的机制和形式是十分必要的
将数据集中不含缺失值的变量(属性)称为完全变量,数据集中含有缺失值的变量称为不完全变量,Little和Rubin定义了以下三种不同的数据缺失机制[38]:1)完全随机缺失(MissingCompletelyatRandom,MCAR)
数据的缺失与不完全变量以及完全变量都是无关的
2)随机缺失(MissingatRandom,MAR)
数据的缺失仅仅依赖于完全变量
3)非随机、不可忽略缺失(NotMissi