数据挖掘数据清洗VIP免费

下载本文档

阅读 142
下载 22
格式 docx
大小 22.95 KB
约7页
2024-11-12 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/7页

2/7页

3/7页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

文本预览下载提示常见问题

数据预处理1数据清理数据清洗是清除错误和不一致数据的过程，当然，数据清洗不是简单的用更新数据记录，在数据挖掘过程中，数据清洗是第一步骤，即对数据进行预处理的过程。数据清洗的任务是过滤或者修改那些不符合要求的数据。不符合要求的数据主要有不完整的数据、错误的数据和重复的数据3大类。各种不同的挖掘系统都是针对特定的应用领域进行数据清洗的。包括：1)检测并消除数据异常2)检测并消除近似重复记录3)数据的集成4)特定领域的数据清洗项目中的数据来源于数据仓库，其中数据是不完整的、有噪声和不一致的。数据清理过程试图填充缺失的值，光滑噪声并识别离群点，并纠正数据中的不一致。数据清洗的目的是为挖掘提供准确而有效的数据，提高挖掘效率。下面介绍数据清理的过程，该过程依照云平台的处理流程。2缺失值处理对于数据集中的数据，存在有这样两种情况：1)数据中有大量缺失值的属性，我们通常采取的措施是直接删除，但是在有些系统进行ETL处理时，不能直接处理大量的缺失值。2)对于比较重要的属性，也会存在少量缺失值，需要将数据补充完整后进行一系列的数据挖掘。针对这两种不完整的数据特征，在数据清洗时采取了以下两种方式对数据填补：1)将缺失的属性值用同一个常数替换，如“Unknown”。这种方式用于处理上述的第一种数据特征的数据，先用一个替换值将空值进行约束替换。处理后的数据对后期挖掘工作没有价值会选择删除。2)利用该属性的最可能的值填充缺失值。对于第二种数据特征的数据，事先对每个属性进行值统计，统计其值的分布状态和频率，对该属性的所有遗漏的值均利用出现频率最高的那个值来填补。对缺失数据进行填补后，填入的值可能不正确，数据可能会存在偏置，并不是十分可靠的。然而，该方法使用了该属性已有数据的大部分信息来预测缺失值。在估计缺失值时，通过考虑该属性的值的整体分布与频率，保持该属性的整体分布状态。3数据选择在对数据进行第一步缺失值清理后，会考虑删除掉冗余属性、或者与挖掘关系不大的属性，这称为人工选择。属性的人工选择和数据消减是不同的，即使两者的目的都是缩小所挖掘数据的规模，但却不会影响(或基本不影响)最终的挖掘结果。都属于属性的降维，但是现有的数据消减包括：数据聚合、消减维度、数据压缩和数据块消减。而人工属性选择是物理降维方式，通过对业务的理解和相关人员的沟通，对数据集中的数据进行初步的筛选。4数据变换数据变换是数据清理过程的第二步，是对数据的一个标准化的处理。大部分数据需要进行数据变换。数据变换是不同来源所得到的数据可能导致不一致，所以需要进行数据变换，构成一个适合数据挖掘决的描述形式。在项目中我们进行数据转换包含的处理内容有：(1)属性的数据类型转换。当属性之间的取值范围可能相差很大时，要进行数据的映射处理，映射关系可以去平方根、标准方差以及区域对应。当属性的取值类型较小时，分析数据的频率分布，然后进行数值转换，将其中字符型的属性转换为枚举型。(2)属性构造。根据已有的属性集构造新的属性，以帮助数据挖掘过程。很多情况下需要从原始数据中生成一些新的变量作为预测变量。(3)数据离散化。将连续取值的属性离散化成若干区间，来帮助消减一个连续属性的取值个数。例如年龄字段取值大于0，为了分析的方便，根据经验，可以将用户的年龄段分成几个不同的区间：0〜15、16〜24、25〜35、36〜55、大于55,分别用1,2,3,4,5来表示。(4)数据标准化：不同来源所得到的相同字段定义可能不一样。如性别有男、女来表示,需要将定义标准化,把它们的定义和取值区间统一起来。如性别定义1(男)、2(女)、3(缺失)。数据标准化过程还用来消除变量之间不同数量级造成的数值之间的悬殊差异,消除个别数值较高的属性对聚类结果的影响。5数据的集成数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为数据挖掘提供完整的数据源。数据集成处理需要考虑以下几个问题：(1)来自多个数据源的数据表通过相同的主键进行自然连接，各个表中的主键要相互匹配，否则不能连接。(2)冗余问题，这是数据集成中经常发生的一个问题，所以在连接之前对各个表中字...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

数据挖掘数据清洗

数据预处理1数据清理数据清洗是清除错误和不一致数据的过程，当然，数据清洗不是简单的用更新数据记录，在数据挖掘过程中，数据清洗是第一步骤，即对数据进行预处理的过程

数据清洗的任务是过滤或者修改那些不符合要求的数据

不符合要求的数据主要有不完整的数据、错误的数据和重复的数据3大类

各种不同的挖掘系统都是针对特定的应用领域进行数据清洗的

包括：1)检测并消除数据异常2)检测并消除近似重复记录3)数据的集成4)特定领域的数据清洗项目中的数据来源于数据仓库，其中数据是不完整的、有噪声和不一致的

数据清理过程试图填充缺失的值，光滑噪声并识别离群点，并纠正数据中的不一致

数据清洗的目的是为挖掘提供准确而有效的数据，提高挖掘效率

下面介绍数据清理的过程，该过程依照云平台的处理流程

2缺失值处理对于数据集中的数据，存在有这样两种情况：1)数据中有大量缺失值的属性，我们通常采取的措施是直接删除，但是在有些系统进行ETL处理时，不能直接处理大量的缺失值

2)对于比较重要的属性，也会存在少量缺失值，需要将数据补充完整后进行一系列的数据挖掘

针对这两种不完整的数据特征，在数据清洗时采取了以下两种方式对数据填补：1)将缺失的属性值用同一个常数替换，如“Unknown”

这种方式用于处理上述的第一种数据特征的数据，先用一个替换值将空值进行约束替换

处理后的数据对后期挖掘工作没有价值会选择删除

2)利用该属性的最可能的值填充缺失值

对于第二种数据特征的数据，事先对每个属性进行值统计，统计其值的分布状态和频率，对该属性的所有遗漏的值均利用出现频率最高的那个值来填补

对缺失数据进行填补后，填入的值可能不正确，数据可能会存在偏置，并不是十分可靠的

然而，该方法使用了该属性已有数据的大部分信息来预测缺失值

在估计缺失值时，通过考虑该属性的值的整体分布与频率，保持该属性的整体分布状态

3数据选择在对数据进行第一步缺

wxg + 关注: 实名认证
内容提供者

该用户很懒，什么也没介绍

收藏店铺进入空间

数据挖掘数据清洗VIP免费

数据挖掘数据清洗

您可能关注的文档

相关文档

热门下载

相关标签