ETL 技 术 规 范 第 1章 . ETL 设 计 规 范 ETL 设计规范主要应用于ETL 编码的前期工作。由于ETL 全过程是面向数据的,主要工作为数据的抽取(Extract)、转换(Transform)、装载(Loading),正确界定所涉及到的数据范围和应当应用的转换逻辑对于后续的编码工作非常重要,这些数据关系的确定,我们称之为Mapping(数据映射)。 正确定义数据映射关系是ETL 成功实施的前提,一个完善的Mapping 应该包含以下几个部分: 1 .1 源 数 据 集 属性 此部分应该详细描述数据源的相关属性,包括: 实体名称——含数据来源名称(DSN)、所有者等信息; 字段名称——英文名称; 字段简述——中文名称,如为参数信息应该有相关取值解释,如性别字段(1:男;2:女;0:不详) 类型——字段类型,含长度和精度信息; 非空属性——字段是否可以为空; 1.2 目 标 数 据 集 属性 此部分应该详细描述目标数据集的相关属性,包括: 实体名称——含数据来源名称(DSN)、所有者等信息; 字段名称——英文名称,建议根据字段含义来命名,而不是简单用拼音来定义字段(此部分由负责设计数据集的人员控制); 字段简述——中文名称,对于保留字段应该给出默认值; 类型——字段类型,含长度和精度信息; 非空属性——字段是否可以为空; 1.3 ETL 规 则 主要描述ETL 各个环节的转换规则,包括: 数据源过滤规则——描述从源数据集获取数据过程中过滤掉记录的规则; 关联规则——当源数据集为多个时,描述相互之间的关联关系; 列转换规则——描述源数据集到目标数据集的字段间的转换规则;此规则非常重要,要清晰描述字段间的逻辑关系,包括业务逻辑; 目标数据集更新规则——描述目标数据集的更新策略,包括更新机制和更新频度,如“每日全量更新”、“每周增量更新”等; ETL 作业列表——由于 ETL 所开发的作业之间包含一定的业务逻辑和编码逻辑,所以调度过程中应遵循一定的逻辑顺序,此部分主要用来明确调度的顺序,包括: 作业名称——实现 Mapping 的作业名称,包括该作业功能描述; 调度顺序——用序号或者是流程图模式描述作业的调度顺序,需要综合考虑业务逻辑、编码逻辑以及系统资源等多方面情况,在保证业务逻辑和编码逻辑的基础上,通过控制调度,最大限度地合理利用系统资源; 参数列表——列举每个作业中所使用的参数,不同作业中的相同参数最好使用相同的名称,便于调度时进行控制。 ...