电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

数据挖掘过程中的预处理阶段VIP免费

数据挖掘过程中的预处理阶段_第1页
1/4
数据挖掘过程中的预处理阶段_第2页
2/4
数据挖掘过程中的预处理阶段_第3页
3/4
数据清理初始数据的获取数据集成和融合数据变换数据规约数据挖掘知识评价等等挖掘结果二次预处理数据挖掘过程中的预处理阶段整个数据挖掘过程中,数据预处理要花费60%左右的时间,而后的挖掘工作仅占总工作量的10%左右[1]。经过预处理的数据,不但可以节约大量的空间和时间,而且得到的挖掘结果能更好地起到决策和预测作用。一般的,数据预处理分为4个步骤,本文把对初始数据源的选择作为数据预处理过程中的一个步骤,即共分为5个步骤。因为,如果在数据获得初期就有一定的指导,则可以减少数据获取的盲目性以及不必要噪声的引入且对后期的工作也可节约大量的时间和空间。整个预处理过程见下图:1初始源数据的获取研究发现,通过对挖掘的错误结果去寻找原因,多半是由数据源的质量引起的。因此,原始数据的获取,从源头尽量减少错误和误差,尤其是减少人为误差,尤为重要。首先应了解任务所涉及到的原始数据的属性和数据结构及所代表的意义,确定所需要的数据项和数据提取原则,使用合适的手段和严格的操作规范来完成相关数据的获取,由于这一步骤涉及较多相关专业知识,可以结合专家和用户论证的方式尽量获取有较高含金量(预测能力)的变量因子。获取过程中若涉及到多源数据的抽取,由于运行的软硬件平台不同,对这些异质异构数据库要注意数据源的连接和数据格式的转换。若涉及到数据的保密,则在处理时应多注意此类相关数据的操作且对相关数据作备注说明以备查用。2数据清理数据清理数据清理是数据准备过程中最花费时间、最乏味,但也是最重要的步骤。该步骤可以有效减少学习过程中可能出现相互矛盾情况的问题。初始获得的数据主要有以下几种情况需要处理:1)含噪声数据。处理此类数据,目前最广泛的是应用数据平滑技术。1999年,Pyle系统归纳了利用数据平滑技术处理噪声数据的方法,主要有:①分箱技术,检测周围相应属性值进行局部数据平滑。②利用聚类技术,根据要求选择包括模糊聚类分析或灰色聚类分析技术检测孤立点数据,并进行修正,还可结合使用灰色数学或粗糙集等数学方法进行相应检测。③利用回归函数或时间序列分析的方法进行修正。④计算机和人工相结合的方式等。对此类数据,尤其对于孤立点或异常数据,是不可以随便以删除方式进行处理的。很可能孤立点的数据正是实验要找出的异常数据。因此,对于孤立点应先进入数据库,而不进行任何处理。当然,如果结合专业知识分析,确信无用则可进行删除处理。2)错误数据。对有些带有错误的数据元组,结合数据所反映的实际问题进行分析进行更改或删除或忽略。同时也可以结合模糊数学的隶属函数寻找约束函数,根据前一段历史趋势数据对当前数据进行修正。3)缺失数据。①若数据属于时间局部性的缺失,则可采用近阶段数据的线性插值法进行补缺;若时间段较长,则应该采用该时间段的历史数据恢复丢失数据。若属于数据的空间缺损则用其周围数据点的信息来代替,且对相关数据作备注说明,以备查用。②使用一个全局常量或属性的平均值填充空缺值。③使用回归的方法或使用基于推导的贝叶斯方法或判定树等来对数据的部分属性进行修复④忽略元组。4)冗余数据。包括属性冗余和属性数据的冗余。若通过因子分析或经验等方法确信部分属性的相关数据足以对信息进行挖掘和决策,可通过用相关数学方法找出具有最大影响属性因子的属性数据即可,其余属性则可删除。若某属性的部分数据足以反映该问题的信息,则其余的可删除。若经过分析,这部分冗余数据可能还有他用则先保留并作备注说明。3数据集成和数据融合3.1数据集成数据集成是一种将多个数据源中的数据(数据库、数据立方体或一般文件)结合起来存放到一个一致的数据存储(如数据仓库)中的一种技术和过程。由于不同学科方面的数据集成涉及到不同的理论依据和规则,因此,数据集成可以说是数据预处理中比较困难的一个步骤。每个数据源的命名规则和要求都可能不一致,将多个数据源的数据抽取到一个数据仓库中为了保证实验结果的准确性必须要求所有数据的格式统一。实现格式统一的方法大致分为两类,一类是在各数据源中先进行修改,后统一抽取至数据仓库中;二是先抽取到数据仓库中,再进...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

数据挖掘过程中的预处理阶段

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部