DM 针对大数据量环境下分析型应用的支持方案DTCC2025DM 针对大数据量环境下分析型应用的支持方案大纲·一个实际案例·挑战和解决方案·下一步工作规划DTCC2025DTCC2025一个实际案例案例简介DTCC2025· 海量数据· 基于已有硬件投资– 单服务器节点– 操作库和分析库合并· 以查询分析为主,兼顾少量数据爱护文本数据源数据硬件与拓扑千兆交换机DTCC2025应用服务器数据汇总文本数据源文本 Excel数据数据清洗与入库数据库服务器P550Cpu x 4Mem 32GBP550Cpu x 4Mem 32GB源源16 X 1TB SASRAID 5案例简介-数据DTCC2025· 以常规数据为主,要紧为数值、字符串、时刻类型· 日增长数据量为约 56G,3 亿条元组· 当前数据量 3TB· 最大单表为计费表,目前约 150 亿条记录· 数据储存 20 年后归档为历史数据· 在线数据规模将超过 400TB典型业务流程DTCC2025– 源数据清洗入库– 分析统计型查询· 第一步过滤的选择条件不确定· 试错式的查询分析过程,成功后固化,一样包含 20 多个步骤· 大规模的连接查询、子查询、联合查询、数据分组与排序、临时结果集与临时表等· 复杂 SQL 不多,但 IO 专门大– 日常数据爱护· 手工修改记录内容· 批量删除· 定期爱护案例需求DTCC2025· 关键在查询性能– 第一个过滤步骤· 选择字段由用户随机定义,因此无法使用索引· 一样会得到千万级别的结果集– 大量的多表连接查询· 数据装载性能· 初始入库 48 亿条,近 1T:限 48 小时,相当于 3 万条/s· 后续每 3 天入库一次,9 亿条,168G,限 10 小时内完成DTCC2025挑战-核心是性能原有产品难以支持分析型应用 DTCC2025·······只支持行式储备查询优化器比较简单虚拟机