为什么要进行预处理数据为什么要进行预处理数据 当今现实世界的数据库极易受噪声、丢失数据和不一致 数据的侵扰,因为数据库太大(常常多达数千兆字节,甚至更多),并且多半米自多个异构数据源。低质量的数据将导致低质量的挖掘结果。“如何预处理数据提高数据质量,从而提高挖拥结果的质量?如何预处理数据,使得挖掘过程更加有效、更加容易?” 有大量数据预处理技术。数据清理可以用来去掉数据中的噪声,纠正不一致。数据集成将数据由多个源合并成一致的数据存储, 如数据仓库。也可以使用数据变换,如法律规范化。例如,法律规范化可以提高涉及距离度量的挖捌算法的准确率和有效性。数据归约可以通过聚集、刚除冗余特征或聚类等方法来减小数据规模。这些技术不是互斥的,可以一起使用。例如,数据清理可能涉及纠正错误数据的变换,如将 H 期学段变换成共同的格式。这些数据处理技术在挖掘之前使用,可以显著地提高挖掘模式的总体质量和/或减少实际挖漏所需要的时间。 介绍数据预处理的基本概念,介绍作为数据颀处理基础的描述性数据汇总。描述性数据汇总帮助我们讨论数据的一般特征、识别噪声或离群点,对成功的数据清理和数据集成很有用。数据预处理的方法组织如下:数据清理、数据集成与变换和数据归约。概念分层可以用作数据归约的一种替换形式, 其中低层数据(如年龄的原始仙)用商层概念(如青年、中年或老年)替换。这种形式的数据归约,在那里我们讨论使用数据离散化技术,由数值数据自动地产生概念分层。 为什么要预处理数据 想像你是 AllElectronics 的经理,负贵分析涉及你部门的公司销售数据。你立即着手进行这项工作,认真地审查公司的数据库和数据仓库,识别并选择应当包含在分析中的属性或维,如iten, price 和 units_ sold. 啊!你注意到许多元组在一.些属性 上没有值。为了进行分析,希望知道每种购进的商品是否作了销售广告,但是发现这些信息有记录下米。此外,你的数据库系统用户已经报告某些事务记录中的六些错误、不享常的值和不一致件。换言之,你希望使用数据挖拥技术分析的数据是不完整的(缺少属性值或某些感兴趣的属性,或仅包含聚集数据),含噪声的(包含错误或存在偏离期望的离群值),并且是不一致的(例如,用于商品分类的部门编码存在差异)。欢迎来到现实世界! 存在不完整的、含噪声的和不一致的数据是现实世界大型的数据库或数据仓库的共同特点。不完整数据的出现可能有多种原因。有些感兴趣的属性,如...