DTCC2011DM针对大数据量环境下分析型应用的支持方案大纲·一个实际案例·挑战和解决方案·下一步工作规划DTCC2011DTCC2011一个实际案例案例简介DTCC2011·海量数据·基于已有硬件投资–单服务器节点–操作库和分析库合并·以查询分析为主,兼顾少量数据维护文本数据源数据硬件与拓扑千兆交换机DTCC2011应用服务器数据汇总文本数据源文本Excel数据数据清洗与入库数据库服务器P550Cpux4Mem32GBP550Cpux4Mem32GB源源16X1TBSASRAID5案例简介-数据DTCC2011·以常规数据为主,主要为数值、字符串、时间类型·日增长数据量为约56G,3亿条元组·当前数据量3TB·最大单表为计费表,目前约150亿条记录·数据保存20年后归档为历史数据·在线数据规模将超过400TB典型业务流程DTCC2011–源数据清洗入库–分析统计型查询·第一步过滤的筛选条件不确定·试错式的查询分析过程,成功后固化,一般包含20多个步骤·大规模的连接查询、子查询、联合查询、数据分组与排序、临时结果集与临时表等·复杂SQL不多,但IO非常大–日常数据维护·手工修改记录内容·批量删除·定期维护案例需求DTCC2011·关键在查询性能–第一个过滤步骤·筛选字段由用户随机定义,因此无法使用索引·一般会得到千万级别的结果集–大量的多表连接查询·数据装载性能·初始入库48亿条,近1T:限48小时,相当于3万条/s·后续每3天入库一次,9亿条,168G,限10小时内完成DTCC2011挑战-核心是性能原有产品难以支持分析型应用DTCC2011·······只支持行式存储查询优化器比较简陋虚拟机实现不尽合理物理存储设计有待优化日志系统过于复杂不能充分利用多机资源提升性能数据分片技术不完善于2009年开始新一代产品DM7的研制DM系统研制历程DTCC2011实验室原型技术积