电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

数据挖掘数据清洗VIP免费

数据挖掘数据清洗_第1页
1/7
数据挖掘数据清洗_第2页
2/7
数据挖掘数据清洗_第3页
3/7
1 数 据 预 处 理 1 数 据 清 理 数 据 清 洗 是 清 除 错 误 和 不 一 致 数 据 的 过 程 ,当 然 ,数 据 清 洗 不 是 简 单 的 用 更 新 数 据 记 录 ,在 数 据 挖 掘 过 程 中 , 数 据 清 洗 是 第 一 步 骤 , 即 对 数 据 进 行 预 处 理 的 过 程 。 数 据 清 洗 的 任 务 是过 滤 或 者 修 改 那 些 不 符 合 要 求 的 数 据 。 不 符 合 要 求 的 数 据 主 要 有 不 完 整 的 数 据 、 错 误 的 数 据和 重 复 的 数 据 3 大 类 。 各 种 不 同 的 挖 掘 系 统 都 是 针 对 特 定 的 应 用 领 域 进 行 数 据 清 洗 的 。 包 括 : 1) 检 测 并 消 除 数 据 异 常 2) 检 测 并 消 除 近 似 重 复 记 录 3) 数 据 的 集 成 4) 特 定 领 域 的 数 据 清 洗 项 目 中 的 数 据 来 源 于 数 据 仓 库 , 其 中 数 据 是 不 完 整 的 、 有 噪 声 和 不 一 致 的 。 数 据 清 理 过程 试 图 填 充 缺 失 的 值 , 光 滑 噪 声 并 识 别 离 群 点 , 并 纠 正 数 据 中 的 不 一 致 。 数 据 清 洗 的 目 的 是为 挖 掘 提 供 准 确 而 有 效 的 数 据 , 提 高 挖 掘 效 率 。 下 面 介 绍 数 据 清 理 的 过 程 , 该 过 程 依 照云平台的 处 理 流程 。 2 缺 失 值 处 理 对 于 数 据 集 中 的 数 据 , 存在 有 这样两种 情况: 1) 数 据 中 有 大 量缺 失 值 的 属性, 我们通常 采取的 措施是 直接删除 , 但是 在 有 些 系 统 进行 ETL 处 理 时, 不 能直接处 理 大 量的 缺 失 值 。 2) 对 于 比较重 要 的 属性, 也会存在 少量缺 失 值 , 需要 将数 据 补充 完 整 后进 行 一 系 列的数 据 挖 掘 。 针 对 这两种 不 完 整 的 数 据 特 征, 在 数 据 清 洗 时采取了以下 两种 方式对 数 据 填 补: 1) 将缺 失 的 属性值 用 同 一 个常 数 替换, 如“Unknow n”。 这种 方式用 于 处 理 上述的第 一 种 数 据 特 征的 数 据 , 先用 ...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

数据挖掘数据清洗

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部