阿里巴巴离线大数据处理平台提纲大数据时代阿里巴巴数据事业部离线大数据处理平台(ODPS)我们面临的主要问题ODPS部分功能概览结语大数据时代3大数据时代的挑战4•社交网络、用户行为、购买关系•企业内外IT系统的整合数据关联性•数据规模爆炸式增长•结构化与非结构化数据并存、噪声增多•组合离线、在线、流式等多项计算能力提供解决方案•在大数据上应用传统统计学和数据挖掘算法处理能力•用户隐私保护、商业数据泄漏、复杂的访问控制需求•企业发展的达摩克利斯之剑数据安全•如何利用大数据盈利•数据驱动的新业务模式与企业传统业务模式的冲突商业模式阿里巴巴的大数据产品探索淘宝贷款6•解决小微企业贷款难的问题:–金额高–流程长–授信难–周期长•完全以数据驱动的产品•对既有数据进行二次挖掘•颠覆原有业务模式•规模优势阿里巴巴大数据事业部7离线存储与计算在线存储与计算实时计算流式计算任务调度与管理数据开发与数据可视化界面数据同步数据质量监控元数据管理安全与审计计量与计费服务化API&SDK算法库数据产品数据地图数据共享与合作阿里巴巴离线大数据处理平台•ODPS(OpenDataProcessingService)•支持海量结构化数据的离线存储和计算•以RESTfulAPI的方式提供服务•基于阿里巴巴自主知识产权的分布式操作系统•支持高吞吐量的数据上传下载服务•支持SQL和存储过程•支持MapReduce、BSP编程框架•支持常用的矩阵运算和数据挖掘算法•支持多用户管理和基于ACL和policy的权限控制•基于ODPS可以打造完整的数据仓库解决方案我们面临的主要问题首先需要提供一个高效稳定的离线存储和计算引擎如何支撑5万、15万台以上的机群规模?•多集群架构,运维和管理系统如何在一个平台上支持多个组织的多个用户进行开发?•多租户支持,安全隔离,权限控制如何了解业务运行状态?•元数据管理,指标系统如何管理不同种类的任务?•服务化,统一计算入口,可度量和控制的计算资源准实时查询,R-ODPS,…,我们还在继续探索高效稳定的计算模型10SQL、MapReduce仍然是离线运算的主流,但是,频繁IO带来的性能瓶颈…模型描述能力的局限…准实时查询11•优势:–避免IO消耗–节约调度成本•劣势:–Failover–资源占用–数据规模•适用场景:–Adhoc分析图编程•功能:–统一的API、授权、数据存储、meta–Master-slave,worker负责子图–通过迭代在节点间通讯和修改图拓扑•挑战:–数据倾斜时的内存控制–与其他类型作业共存–错误恢复•优势:–方便处理图数据–多轮迭代性能远好于MR•应用场景:•推荐、社交网络、物流、…利用图编程实现SSSP算法(1)GraphLoader–图加载基类publicstaticclassSSSPGraphLoaderextendsGraphLoader{@Overridepublicvoidload(Recordrecord,MutationContext<...>context){SSSPVertexvertex=newSSSPVertex();vertex.setId((LongWritable)record.get(0));String[]edges=record.get(1).toString().split(",");for(inti=0;i{@Overridepublicvoidcompute(ComputeContext<…>context,Iterablemessages){longminDist=(getId()==1)?0:Integer.MAX_VALUE;for(LongWritablemsg:messages){if(msg