为什么要进行预处理数据

下载本文档

阅读 85
下载 19
格式 docx
大小 12.48 KB
约2页
2025-04-14 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/2页

2/2页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

为什么要进行预处理数据为什么要进行预处理数据当今现实世界的数据库极易受噪声、丢失数据和不一致数据的侵扰，因为数据库太大(常常多达数千兆字节，甚至更多)，并且多半米自多个异构数据源。低质量的数据将导致低质量的挖掘结果。“如何预处理数据提高数据质量，从而提高挖拥结果的质量?如何预处理数据，使得挖掘过程更加有效、更加容易?” 有大量数据预处理技术。数据清理可以用来去掉数据中的噪声，纠正不一致。数据集成将数据由多个源合并成一致的数据存储，如数据仓库。也可以使用数据变换，如法律规范化。例如，法律规范化可以提高涉及距离度量的挖捌算法的准确率和有效性。数据归约可以通过聚集、刚除冗余特征或聚类等方法来减小数据规模。这些技术不是互斥的，可以一起使用。例如，数据清理可能涉及纠正错误数据的变换，如将 H 期学段变换成共同的格式。这些数据处理技术在挖掘之前使用，可以显著地提高挖掘模式的总体质量和/或减少实际挖漏所需要的时间。介绍数据预处理的基本概念，介绍作为数据颀处理基础的描述性数据汇总。描述性数据汇总帮助我们讨论数据的一般特征、识别噪声或离群点，对成功的数据清理和数据集成很有用。数据预处理的方法组织如下:数据清理、数据集成与变换和数据归约。概念分层可以用作数据归约的一种替换形式，其中低层数据(如年龄的原始仙)用商层概念(如青年、中年或老年)替换。这种形式的数据归约，在那里我们讨论使用数据离散化技术，由数值数据自动地产生概念分层。为什么要预处理数据想像你是 AllElectronics 的经理，负贵分析涉及你部门的公司销售数据。你立即着手进行这项工作，认真地审查公司的数据库和数据仓库，识别并选择应当包含在分析中的属性或维，如iten, price 和 units_ sold. 啊!你注意到许多元组在一.些属性上没有值。为了进行分析，希望知道每种购进的商品是否作了销售广告，但是发现这些信息有记录下米。此外，你的数据库系统用户已经报告某些事务记录中的六些错误、不享常的值和不一致件。换言之，你希望使用数据挖拥技术分析的数据是不完整的(缺少属性值或某些感兴趣的属性，或仅包含聚集数据)，含噪声的(包含错误或存在偏离期望的离群值)，并且是不一致的(例如，用于商品分类的部门编码存在差异)。欢迎来到现实世界! 存在不完整的、含噪声的和不一致的数据是现实世界大型的数据库或数据仓库的共同特点。不完整数据的出现可能有多种原因。有些感兴趣的属性，如...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

为什么要进行预处理数据

为什么要进行预处理数据为什么要进行预处理数据当今现实世界的数据库极易受噪声、丢失数据和不一致数据的侵扰，因为数据库太大(常常多达数千兆字节，甚至更多)，并且多半米自多个异构数据源

低质量的数据将导致低质量的挖掘结果

“如何预处理数据提高数据质量，从而提高挖拥结果的质量

如何预处理数据，使得挖掘过程更加有效、更加容易

” 有大量数据预处理技术

数据清理可以用来去掉数据中的噪声，纠正不一致

数据集成将数据由多个源合并成一致的数据存储，如数据仓库

也可以使用数据变换，如法律规范化

例如，法律规范化可以提高涉及距离度量的挖捌算法的准确率和有效性

数据归约可以通过聚集、刚除冗余特征或聚类等方法来减小数据规模

这些技术不是互斥的，可以一起使用

例如，数据清理可能涉及纠正错误数据的变换，如将 H 期学段变换成共同的格式

这些数据处理技术在挖掘之前使用，可以显著地提高挖掘模式的总体质量和/或减少实际挖漏所需要的时间

介绍数据预处理的基本概念，介绍作为数据颀处理基础的描述性数据汇总

描述性数据汇总帮助我们讨论数据的一般特征、识别噪声或离群点，对成功的数据清理和数据集成很有用

数据预处理的方法组织如下:数据清理、数据集成与变换和数据归约

概念分层可以用作数据归约的一种替换形式，其中低层数据(如年龄的原始仙)用商层概念(如青年、中年或老年)替换

这种形式的数据归约，在那里我们讨论使用数据离散化技术，由数值数据自动地产生概念分层

为什么要预处理数据想像你是 AllElectronics 的经理，负贵分析涉及你部门的公司销售数据

你立即着手进行这项工作，认真地审查公司的数据库和数据仓库，识别并选择应当包含在分析中的属性或维，如iten, price 和 units_ sold

你注意到许多元组在一

些属性上没有值

为了进行分析，希望知道每种购进的商品是否作了销售广告，但是发现这

领读文化 + 关注: 实名认证
内容提供者

传播文化，铸就未来

收藏店铺进入空间

为什么要进行预处理数据

为什么要进行预处理数据

您可能关注的文档

相关文档

热门下载

相关标签