数据预处理1数据清理数据清洗是清除错误和不一致数据的过程,当然,数据清洗不是简单的用更新数据记录,在数据挖掘过程中,数据清洗是第一步骤,即对数据进行预处理的过程
数据清洗的任务是过滤或者修改那些不符合要求的数据
不符合要求的数据主要有不完整的数据、错误的数据和重复的数据3大类
各种不同的挖掘系统都是针对特定的应用领域进行数据清洗的
包括:1)检测并消除数据异常2)检测并消除近似重复记录3)数据的集成4)特定领域的数据清洗项目中的数据来源于数据仓库,其中数据是不完整的、有噪声和不一致的
数据清理过程试图填充缺失的值,光滑噪声并识别离群点,并纠正数据中的不一致
数据清洗的目的是为挖掘提供准确而有效的数据,提高挖掘效率
下面介绍数据清理的过程,该过程依照云平台的处理流程
2缺失值处理对于数据集中的数据,存在有这样两种情况:1)数据中有大量缺失值的属性,我们通常采取的措施是直接删除,但是在有些系统进行ETL处理时,不能直接处理大量的缺失值
2)对于比较重要的属性,也会存在少量缺失值,需要将数据补充完整后进行一系列的数据挖掘
针对这两种不完整的数据特征,在数据清洗时采取了以下两种方式对数据填补:1)将缺失的属性值用同一个常数替换,如“Unknown”
这种方式用于处理上述的第一种数据特征的数据,先用一个替换值将空值进行约束替换
处理后的数据对后期挖掘工作没有价值会选择删除
2)利用该属性的最可能的值填充缺失值
对于第二种数据特征的数据,事先对每个属性进行值统计,统计其值的分布状态和频率,对该属性的所有遗漏的值均利用出现频率最高的那个值来填补
对缺失数据进行填补后,填入的值可能不正确,数据可能会存在偏置,并不是十分可靠的
然而,该方法使用了该属性已有数据的大部分信息来预测缺失值
在估计缺失值时,通过考虑该属性的值的整体分布与频率,保持该属性的整体分布状态
3数据选择在对数据进行第一步缺