1数据中台技术方案本技术方案主要明确公司数据中台建设目标、建设原则、能力框架、技术要求和演进策略等内容,为公司数据中台建设提供技术指导
一、建设背景(一)建设现状当前公司信息内网建成了覆盖公司总部及27家省(市)公司的两级全业务统一数据中心分析域,初步具备了数据接入、数据存储计算、数据分析应用相关能力,实现公司核心业务系统数据的接入及整合汇聚,支撑了各专业数据分析类应用的构建
在数据接入方面:通过OGG、ETL等技术实现业务系统结构化数据接入至分析域贴源区,通过采集量测数据接入工具实现采集量测数据接入大数据平台
在数据存储方面:贴源历史层采用分布式关系型数据库(SG-RDB-MS)实现各业务系统贴源数据的存储
数据仓库层采用MPP数据库(GBase8a),基于统一数据模型(SG-CIM)实现部分数据标准化存储
数据集市层采用关系型数据库(SG-RDB-PG)实现分析计算后结果数据存储;采集量测数据采用大数据平台分布式列式数据库(Hbase)进行存储
2在数据计算方面:针对小规模数据计算分析需求,通过MPP数据库(Gbase8a)并行计算技术实现
针对大批量的离线计算需求通过大数据平台批量计算组件(MapReduce)实现
针对实时数据计算需求,通过大数据平台实时消息队列(kafka)、内存计算(Spark)、流计算(Storm)等组件实现
在数据应用方面:针对大数据分析应用需求,通过自助式分析工具、Tableau等工具实现
(二)存在问题当前分析域在各单位分析应用中发挥了一定的作用,但从应用角度来看仍存在技术门槛高、数据难读懂、数据获取难等问题,具体如下:1
技术组件多样,应用难度大
分析域主要包括数据接入、数据存储、数据计算等方面的21个技术组件,涉及厂商多,技术体系性差,组件之间技术集成复杂,相关工具友好性不足,对专业能力要求高,应用难度大
找数据困难,数据应用门槛