数据中台搭建方法论集合步骤:数据集中化存储在上篇文章中我们谈及了在数据中台建设前,必须要进行数据集中化存储,从而通过数据中台的建设,完成各业务线的改造
而具体来说,数据集中化存储就是在进行企业级维度的数据管理,在这其中会涉及如下三个子任务:各个业务产生的数据汇总;数据加工:统一采集、清洗、管理方法;(将各个业务线的数据清洗方法以模板形式配置在企业数据引擎中);全局数据模型生成;数据源2数据源3数据源廿数据加载大数据清洗引擎Spark集群清洗算法1清洗算法2清洗算法3数据存储引擎存储组件3某数据清洗引擎运作原理)完成这三个任务,对应的我们也建立起了一个企业内部的数据自流转体系
名称相同t口桎不致/Ci口径管理■指标数据来源和计算逻辑不口径一致F名称不一致指标命名难以理步骤:数据集中加工在完成了数据集中化管理后,下一步要做的就是建立数据口径管理,实现统一集中计算,具体来说在数据中台中为了实现集中计算,要进行口径管理的一共包含如下4个维度:举个例子来说,在上篇文章(中台实战19)我们将数据集中化到了数据中台进行存储,但是此时来自各个业务线的数据并不能直接使用,因为不可避免的会出现各个数据名称不统一的情况
A业务线中会员数据名称:会员ID会员名祢金员『机1-亠次访问科间1例11小王18710385XXX1020年10月gFI14:59:50B业务线中会员数据名称:了段会员ID会员上滋站M间11小T13710SB5>IK2D2Q年1D月81114:59:50此时就需要将各个业务线的数据名称进行统一,这里我们通常会用软映射的方法将不同的业务线数据进行统一起来,也就是建立一张数据表进行字段映射管理,如下图所示
但是刚才说到的是对现有数据进行管理,对于新产生的数据我们需要进行归一化管理,以便能让数据进入数据中台时就能统一,此时我们就需要使用一套公司级数据载体进行管理:(1)建立唯一指标体系