电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

数据质量管理方法总结VIP免费

数据质量管理方法总结_第1页
1/16
数据质量管理方法总结_第2页
2/16
数据质量管理方法总结 一、数据质量保障原则 如何评估数据质量的好坏,业界有不同的标准,阿里主要从 4 个方面进行评估:完整性、准确性、一致性、及时性; 1. 完整性 数据完整性是数据最基础的保障; • 完整性:指 数据的记 录 和 信 息 是否 完整,是否 存 在 缺 失 的情 况 ; • • 数据缺 失 :主要包 括 记 录 的缺 失 和 记 录 中 某 个字 段 信 息 的缺 失 ; • 记 录 的丢 失 :如,交 易 中 每 天 只 发 订 单 数都 在 100 万 笔 左 右 ,如果 某 天 支付 订 单 突 然 下 降 到 1 万 笔 ,很 可 能 是记 录 丢 失 了 ; 记 录 中 字 段 的丢 失 :如,订 单 的商 品 ID、卖 家 ID 都 是必 然 存 在 的,这 些字 段 的空 值 个数肯 定 是 0,一旦 大 于 0 就 违 背 了 完整性约 束 ; • 2. 准确性 • 准确性:指 数据汇 总记 录 的信 息 和 数据是否 准确,是否 存 在 异 常 或 者 错 误的信 息 ; • 准确:数据表 中 记 录 的信 息 与 业务 过程中 真实发 生的事实要一致;如何判断是否 准确:卡点监控 —— 制定 相应规则,根据根校验数据,符合规则的数据则认为是准确的; 如,一笔 订 单 如果 出现确认收货金额为负值 ,或 者 下 单 时间在 公 司 成 立 之前 ,或 者 订 单 没 有买 家 信 息 等 ,这 些 必 然 是有问 题 的; • 3. 一致性 • 一致性:一般体现在跨度很大的数据仓库体系中,如阿里的数据仓库,内部有很多业务数据仓库分支,对于同一份数据,必须保证一致性; • 一致:也 就 是 指 多个 业务数据仓库间 的公 共 数据,必须在各 个 数据仓库中保持 一致; • 如,用 户 ID,从 在线 业务库加 工 到 数据仓库,再 到 各 个 消 费 节 点 ,必须都是 同一种 类 型 ,长 度也 需 要 保持 一致; • • 所 以 ,在阿里建 设 数据仓库时 ,才 有了 公 共 层 的加 工 ,以 确 保数据的一致性; • 4. 及 时 性 • 及 时 性:指 数据要 能 及 时 产 出 ; • 主 要 体现在数据应 用 上 ,要 及 时 产 出 给 到 需 求 方 ; • • 一般决 策 支持 分析 师 希 望 当 天 就 能 看 到 前 一天 ...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

数据质量管理方法总结

您可能关注的文档

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部