数据挖掘 第二章 数据预处理 由于数据库系统所获数据量的迅速膨胀(已达 或 数量级),从而导致了现实世界数据库中常常包含许多含有噪声、不完整()、甚至是不一致()的数据
显然对数据挖掘所涉及的数据对象必须进行预处理
那么如何对数据进行预处理以改善数据质量,并最终达到完善最终的数据挖掘结果之目的呢
数据预处理主要包括:数据清洗()、数据集成()、数据转换()和数据消减()
本章将介绍这四种数据预处理的基本处理方法
数据预处理是数据挖掘(知识发现)过程中的一个重要步骤,尤其是在对包含有噪声、不完整,甚至是不一致数据进行数据挖掘时,更需要进行数据的预处理,以提高数据挖掘对象的质量,并最终达到提高数据挖掘所获模式知识质量的目的
例如:对于一个负责进行公司销售数据分析的商场主管,他会仔细检查公司数据库或数据仓库内容,精心挑选与挖掘任务相关数据对象的描述特征或数据仓库的维度(),这包括:商品类型、价格、销售量等,但这时他或许会发现有数据库中有几条记录的一些特征值没有被记录下来;甚至数据库中的数据记录还存在着一些错误、不寻常()、甚至是不一致情况,对于这样的数据对象进行数据挖掘,显然就首先必须进行数据的预处理,然后才能进行正式的数据挖掘工作
所谓噪声数据