电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

智能数据治理数据自动化清洗功能设计方案VIP免费

智能数据治理数据自动化清洗功能设计方案_第1页
1/11
智能数据治理数据自动化清洗功能设计方案_第2页
2/11
智能数据治理数据自动化清洗功能设计方案_第3页
3/11
数据治理_数据自动化清洗功能设计方案2背景•当前的基础清洗是由开发人员在平台通过配置输入输出表、依赖、数据源,再通过SQL脚本创建剔重程序将ODS表转换为DWD表,程序上线依据前置归集任务的调度周期及系统忙闲程度生成调度任务。是ODS-DWD-DWS程序链中的一环,平台也会依据这些配置信息生成数据血缘关系图。•因输出表有命名规范,剔重SQL没有附加业务属性,千篇一律,其他配置信息可以通过前置的归集任务获取,因此业主方认为基础清洗工作可以自动化完成,也就是说ODS到DWD过程不需要人工干预。•要求归集后的数据都应全量做基础清洗3基础清洗流程—现状归集系统数据资产数据治理MQ归集完成通知消费归集消息通过接口触发执行输入表为当前归集ODS表的清洗程序元数据采集样例数据采集目录状态更新…数据湖执行ODS->DWD的清洗开发ODS->DWD的清洗程序治理开发人员•治理开发人员在数据治理平台把ODS->DWD的清洗程序开发完成并发布后,平台才能根据归集消息自动触发清洗程序目录资源挂载4自动化基础清洗流程归集系统数据资产数据治理MQ归集完成通知消费归集消息通过接口触发执行输入表为当前归集ODS表的清洗程序元数据采集样例数据采集目录状态更新…数据湖执行ODS->DWD的清洗开发ODS->DWD的清洗程序治理开发人员1、通过接口自动创建输入表为ODS表的调度程序并发布,如已创建则跳过2、自动创建DWD元数据并挂载目录资源•通过接口自动创建输入表为ODS表的调度程序并发布,不再需要治理开发人员人工干预目录资源挂载5自动化基础清洗—全量清洗程序模板判断ODS表是否存在ODS表不存在,程序结束读取ODS表获取ODS表数据量判断ODS表数据量是否为0ODS表数据量为0,程序结束获取分桶数读取DWD表判断DWD表是否存在备份DWD表存在创建新的DWD表不存在清洗数据保存清洗统计日志删除历史DWD备份表结束自动清洗前提条件:•DWD表的创建依据ODS的建表语句,增加分桶规则;ODS表如果建表不规范,则DWD表可能存在不规范的情况•数据踢重,依赖于奥腾同步的目录信息中的主键标识;如没有主键标识,则无法自动生成自动清洗规则:•DWD表名按照规范生成•DWD表为ORC的分桶表,分桶数跟据数据量查询分桶配置表确定•DWD表先备份再清洗•数据清洗去重规则为:根据主键分组,按照奥腾创建时间取最新一条数据存在不存在为0不为06自动化基础清洗·增量清洗程序模板判断最新批次ODS表是否存在ODS表不存在,程序结束读取当前批次ODS表获取最新批次ODS表数据量判断最新批次ODS表数据量是否为0ODS表数据量为0,程序结束获取分桶数清洗数据(前一批次的DWD表+最新批次ODS表数据合并)保存清洗统计日志删除历史批次DWD备份表结束自动清洗前提条件:•增量归集时,每次归集都生成一个新表或有统一的标识字段标识增量数据,如归集批次、归集日期•DWD表的创建依据ODS的建表语句,增加分桶规则;ODS表如果建表不规范,则DWD表可能存在不规范的情况•数据踢重,依赖于奥腾同步的目录信息中的主键标识;如没有主键标识,则无法自动生成自动清洗规则:•DWD表名按照规范生成,表后缀增加•DWD表为ORC的分桶表,分桶数跟据数据量查询分桶配置表确定•最新DWD表的数据为前一批次DWD表+最新批次ODS的数据合并•数据清洗去重规则为:根据主键分组,按照奥腾创建时间取最新一条数据存在不存在为0不为0创建新批次的DWD表数据复制到DWD表7自动化基础清洗—监控&上线异常监控:•自动化清洗程序生成失败的统计监控•已生成自动化清洗程序的调度执行结果监控•自动化清洗程序调度成功后ODS数据量与DWD数据量的对比监控上线方式(二选一):•人工上线自动化清洗程序(推荐):平台自动生成ODS->DWD的清洗程序,数据治理开发人员,对需要上线的治理程序,进行发布上线•自动上线自动化清洗程序:按照委办逐步上线:所有委办的目录量1万+,目前星环的资源配置可能不具备一次性全量清洗条件,采取首次上线时,选择一个委办试点,逐步放开其他委办8自动化基础清洗·其他说明•对于已经开发ODS->DWD清洗程序的表,不再重复生成清洗程序•所有生成的自动化清洗程序,都在治理平台运维团队下•对于某些特殊场景,自动化生成的调度程序无法...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

智能数据治理数据自动化清洗功能设计方案

您可能关注的文档

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部