数据治理_数据自动化清洗功能设计方案2背景•当前的基础清洗是由开发人员在平台通过配置输入输出表、依赖、数据源,再通过SQL脚本创建剔重程序将ODS表转换为DWD表,程序上线依据前置归集任务的调度周期及系统忙闲程度生成调度任务
是ODS-DWD-DWS程序链中的一环,平台也会依据这些配置信息生成数据血缘关系图
•因输出表有命名规范,剔重SQL没有附加业务属性,千篇一律,其他配置信息可以通过前置的归集任务获取,因此业主方认为基础清洗工作可以自动化完成,也就是说ODS到DWD过程不需要人工干预
•要求归集后的数据都应全量做基础清洗3基础清洗流程—现状归集系统数据资产数据治理MQ归集完成通知消费归集消息通过接口触发执行输入表为当前归集ODS表的清洗程序元数据采集样例数据采集目录状态更新…数据湖执行ODS->DWD的清洗开发ODS->DWD的清洗程序治理开发人员•治理开发人员在数据治理平台把ODS->DWD的清洗程序开发完成并发布后,平台才能根据归集消息自动触发清洗程序目录资源挂载4自动化基础清洗流程归集系统数据资产数据治理MQ归集完成通知消费归集消息通过接口触发执行输入表为当前归集ODS表的清洗程序元数据采集样例数据采集目录状态更新…数据湖执行ODS->DWD的清洗开发ODS->DWD的清洗程序治理开发人员1、通过接口自动创建输入表为ODS表的调度程序并发布,如已创建则跳过2、自动创建DWD元数据并挂载目录资源•通过接口自动创建输入表为ODS表的调度程序并发布,不再需要治理开发人员人工干预目录资源挂载5自动化基础清洗—全量清洗程序模板判断ODS表是否存在ODS表不存在,程序结束读取ODS表获取ODS表数据量判断ODS表数据量是否为0ODS表数据量为0,程序结束获取分桶数读取DWD表判断DWD表是否存在备份DWD表存在创建新的DWD表不存在清洗数据保存清洗统计日志删除历史DWD备份表