阿里巴巴离线大数据处理平台提纲大数据时代阿里巴巴数据事业部离线大数据处理平台(ODPS)我们面临的主要问题ODPS部分功能概览结语大数据时代3大数据时代的挑战4•社交网络、用户行为、购买关系•企业内外IT系统的整合数据关联性•数据规模爆炸式增长•结构化与非结构化数据并存、噪声增多•组合离线、在线、流式等多项计算能力提供解决方案•在大数据上应用传统统计学和数据挖掘算法处理能力•用户隐私保护、商业数据泄漏、复杂的访问控制需求•企业发展的达摩克利斯之剑数据安全•如何利用大数据盈利•数据驱动的新业务模式与企业传统业务模式的冲突商业模式阿里巴巴的大数据产品探索淘宝贷款6•解决小微企业贷款难的问题:–金额高–流程长–授信难–周期长•完全以数据驱动的产品•对既有数据进行二次挖掘•颠覆原有业务模式•规模优势阿里巴巴大数据事业部7离线存储与计算在线存储与计算实时计算流式计算任务调度与管理数据开发与数据可视化界面数据同步数据质量监控元数据管理安全与审计计量与计费服务化API&SDK算法库数据产品数据地图数据共享与合作阿里巴巴离线大数据处理平台•ODPS(OpenDataProcessingService)•支持海量结构化数据的离线存储和计算•以RESTfulAPI的方式提供服务•基于阿里巴巴自主知识产权的分布式操作系统•支持高吞吐量的数据上传下载服务•支持SQL和存储过程•支持MapReduce、BSP编程框架•支持常用的矩阵运算和数据挖掘算法•支持多用户管理和基于ACL和policy的权限控制•基于ODPS可以打造完整的数据仓库解决方案我们面临的主要问题首先需要提供一个高效稳定的离线存储和计算引擎如何支撑5万、15万台以上的机群规模
•多集群架构,运维和管理系统如何在一个平台上支持多个组织的多个用户进行开发
•多租户支持,安全隔离,权限控制如何了解业务运行状态
•元数据管理,指标系统如何管理