DM 针对大数据量环境下分析型应用的支持方案DTCC2025DM 针对大数据量环境下分析型应用的支持方案大纲·一个实际案例·挑战和解决方案·下一步工作规划DTCC2025DTCC2025一个实际案例案例简介DTCC2025· 海量数据· 基于已有硬件投资– 单服务器节点– 操作库和分析库合并· 以查询分析为主,兼顾少量数据爱护文本数据源数据硬件与拓扑千兆交换机DTCC2025应用服务器数据汇总文本数据源文本 Excel数据数据清洗与入库数据库服务器P550Cpu x 4Mem 32GBP550Cpu x 4Mem 32GB源源16 X 1TB SASRAID 5案例简介-数据DTCC2025· 以常规数据为主,要紧为数值、字符串、时刻类型· 日增长数据量为约 56G,3 亿条元组· 当前数据量 3TB· 最大单表为计费表,目前约 150 亿条记录· 数据储存 20 年后归档为历史数据· 在线数据规模将超过 400TB典型业务流程DTCC2025– 源数据清洗入库– 分析统计型查询· 第一步过滤的选择条件不确定· 试错式的查询分析过程,成功后固化,一样包含 20 多个步骤· 大规模的连接查询、子查询、联合查询、数据分组与排序、临时结果集与临时表等· 复杂 SQL 不多,但 IO 专门大– 日常数据爱护· 手工修改记录内容· 批量删除· 定期爱护案例需求DTCC2025· 关键在查询性能– 第一个过滤步骤· 选择字段由用户随机定义,因此无法使用索引· 一样会得到千万级别的结果集– 大量的多表连接查询· 数据装载性能· 初始入库 48 亿条,近 1T:限 48 小时,相当于 3 万条/s· 后续每 3 天入库一次,9 亿条,168G,限 10 小时内完成DTCC2025挑战-核心是性能原有产品难以支持分析型应用 DTCC2025·······只支持行式储备查询优化器比较简单虚拟机实现不尽合理物理储备设计有待优化日志系统过于复杂不能充分利用多机资源提升性能数据分片技术不完善于 2025 年开始新一代产品 DM7 的研制DM 系统研制历程DTCC2025实验室原型技术积存时期实现各类标准连续的技术积存5.6 引入物理操作符,虚拟机6.0 引入高级特性和 oracle 兼容特性5DM72025稳固性及功能与开源系统有差距3DM5.64DM62025对 DM4-DM6 的技术总结融合列储备与行储备基于向量数据的1DM1-DM32DM420252025执行内核原生的 MVCCOLAP 应用的支持1988-2025关于性能的明白得DTCC2025应用系统的设计表达式运算优化器综合性能数据/操纵权传递I/O 效率并发/并行数据操纵权传递-批量技术 DTCC2025– 向量...