数据处理流程规范I目次目次 I1 范围 12 规范性引用文件 13 术语、定义和缩略语 13
1 术语和定义 13
2 缩略语 14 数据来源与处理流程 14
1 数据来源 14
2 数据处理原则 24
3 数据处理流程 24
4 数据获取与保存 34
5 数据预处理 34
6 数据清洗 44
7 数据核检 44
8 数据更新 41数据处理流程规范1范围本部分按照 GB/T1
1-2009 给出的规则起草,提出了政务信息资源中的数据处理流程,包括数据预处理和数据清理过程
2规范性引用文件下列文件对于本文件的应用是必不可少的
凡是注日期的引用文件,仅注日期的版本适用于本文件
凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件
GB/T21063
1 政务信息资源目录体系第 1 部分:总体框架GB/T35274-2017 信息安全技术大数据服务安全能力要求3术语、定义和缩略语3
1术语和定义下列术语和定义适用于本文件
1数据安全 datasecurity一是数据本身的安全,主要是指采用现代密码算法对数据进行主动保护,如数据保密、数据完整性、双向强身份认证等,二是数据防护的安全,主要是采用现代信息存储手段对数据进行主动防护,如通过磁盘阵列、数据备份、异地容灾等手段保证数据的安全
2数据预处理 datapreprocessing数据预处理是指数据在处理、加工之前对数据进行的一系列操作
3脏数据 dirtydata脏数据是指系统中的数据不在给定的范围内或对于实际业务毫无意义,或是数据格式非法,以及在系统中存在不规范的编码和含糊的业务逻辑
4数据清洗 datacleaning数据清洗是指利用现有的数据挖掘手段和方法清洗脏数据,将脏数据转化为满足数据质量要求或应用要求的数据的过程
2缩略语下列缩略语适用于本文件
ETL:数据仓库技术(E