下载后可任意编辑DM 针对大数据量环境下分析型应用的支持方案12024 年 5 月 29 日下载后可任意编辑DTCC DM 针对大数据量环境下分析型应用的支持方案22024 年 5 月 29 日下载后可任意编辑大纲·一个实际案例·挑战和解决方案·下一步工作规划DTCC 32024 年 5 月 29 日下载后可任意编辑DTCC 一个实际案例42024 年 5 月 29 日下载后可任意编辑案例简介DTCC · 海量数据· 基于已有硬件投资– 单服务器节点– 操作库和分析库合并· 以查询分析为主,兼顾少量数据维护52024 年 5 月 29 日下载后可任意编辑硬件与拓扑千兆交换机DTCC 应用服务器数据汇总文本数据源文本 Excel数据数据清洗与入62024 年 5 月 29 日文本数据源数据下载后可任意编辑库数据库服务器P550Cpu x 4Mem 32GBP550Cpu x 4Mem 32GB源源16 X 1TB SASRAID 572024 年 5 月 29 日下载后可任意编辑案例简介-数据DTCC · 以常规数据为主,主要为数值、字符串、时间类型· 日增长数据量为约 56G,3 亿条元组· 当前数据量 3TB· 最大单表为计费表,当前约 150 亿条记录· 数据保存 20 年后归档为历史数据· 在线数据规模将超过 400TB82024 年 5 月 29 日下载后可任意编辑典型业务流程DTCC – 源数据清洗入库– 分析统计型查询· 第一步过滤的筛选条件不确定· 试错式的查询分析过程,成功后固化,一般包含 20 多个步骤· 大规模的连接查询、子查询、联合查询、数据分组与排序、临时结果集与临时表等· 复杂 SQL 不多,但 IO 非常大– 日常数据维护· 手工修改记录内容· 批量删除92024 年 5 月 29 日下载后可任意编辑· 定期维护102024 年 5 月 29 日