数据清理初始数据的获取数据集成和融合数据变换数据规约数据挖掘知识评价等等挖掘结果二次预处理数据挖掘过程中的预处理阶段整个数据挖掘过程中,数据预处理要花费60%左右的时间,而后的挖掘工作仅占总工作量的10%左右[1]
经过预处理的数据,不但可以节约大量的空间和时间,而且得到的挖掘结果能更好地起到决策和预测作用
一般的,数据预处理分为4个步骤,本文把对初始数据源的选择作为数据预处理过程中的一个步骤,即共分为5个步骤
因为,如果在数据获得初期就有一定的指导,则可以减少数据获取的盲目性以及不必要噪声的引入且对后期的工作也可节约大量的时间和空间
整个预处理过程见下图:1初始源数据的获取研究发现,通过对挖掘的错误结果去寻找原因,多半是由数据源的质量引起的
因此,原始数据的获取,从源头尽量减少错误和误差,尤其是减少人为误差,尤为重要
首先应了解任务所涉及到的原始数据的属性和数据结构及所代表的意义,确定所需要的数据项和数据提取原则,使用合适的手段和严格的操作规范来完成相关数据的获取,由于这一步骤涉及较多相关专业知识,可以结合专家和用户论证的方式尽量获取有较高含金量(预测能力)的变量因子
获取过程中若涉及到多源数据的抽取,由于运行的软硬件平台不同,对这些异质异构数据库要注意数据源的连接和数据格式的转换
若涉及到数据的保密,则在处理时应多注意此类相关数据的操作且对相关数据作备注说明以备查用
2数据清理数据清理数据清理是数据准备过程中最花费时间、最乏味,但也是最重要的步骤
该步骤可以有效减少学习过程中可能出现相互矛盾情况的问题
初始获得的数据主要有以下几种情况需要处理:1)含噪声数据
处理此类数据,目前最广泛的是应用数据平滑技术
1999年,Pyle系统归纳了利用数据平滑技术处理噪声数据的方法,主要有:①分箱技术,检测周围相应属性值进行局部数据平滑
②利用聚类技术,根据要求选择包括模糊聚类分析或