物流大数据处理物流大数据处理采集导入/预处理统计/分析挖掘1234567潘果淘宝数据分析挖掘实践及变革淘宝数据分析挖掘实践及变革百度大数据分析系统架构百度大数据分析系统架构京东大数据实时处理技术京东大数据实时处理技术物流大数据处理简介物流大数据处理简介11223344目录【推荐】用大数据能力找到商品之间的关系【推荐】用大数据能力找到商品之间的关系你知晓大数据在哪些方面有应用?3132架构化1950-1970数字化1970-1990网络化1990-2010+物联网大数据SomethingBigisHappeningNOW移动互联网云计算4信息技术革命的小周期智慧化51:1MarketingNanotargeting和Retargeting62©IBMIBM2013多渠道交通控制交易分析智慧的医疗国土安全制造金融电信欺诈和风险日志分析搜索质量零售:流失、促销©Copyright2011Corporation大数据在各行各业都可以获得应用24©Copyright2011Corporation©IBMIBM2013获得突破性回报了解关于客户的一切作快速大量地创新产品和风险利用工具化的资产利用大数据能力可以帮助企业获得突破性回报利用大数据独有的技术能力可视化和发现Hadoop执行零延迟的操数据仓库流计算文本分析整合和治理多媒体内容通过分析仸意大数据类型交易/应用数据机器数据社交媒体数据实时侦测欺诈411快杂大大数据的新思维13多数据源的集成浮动车GPS:20M/day手机位置信息:18M/day居民调查:80000户视频/图像数据和元数据:100sofTB/dayGIS数据供水系统智能电网睡眠质量出租车运营数据:1M/day交通卡:19M/day高速路收费数据:0.5M/day社交网络情感分析部分数据来源:BeijingTOCC12大数据的新方法学数据极大丰富前提下的新分析思维和技术采样数据全集数据多数据源的整合基于主观因果假设相关关系大数据+小算法+上下文+知识积累描述性分析预测性和处方性分析实时性>绝对的精确性数据数据中介服务生态系统数据拥有者大数据的数据中介数据技术公司数据产品和服务16大数据系统的设计权衡大体量基于采样的查询实时性流计算批量计算精确性惰性数据的即席查询Littledata(个人计算)19城市计算增量计算内存计算案例一:大数据分析系统架构的搭建百度的数据规模•100~1000PB•10~100PB/天•千亿~万亿•百亿~千亿•十亿~百亿/天•十亿~百亿/天•100TB~1PB/天数据总量数据处理量网页索引更新量请求日志离线在线离线分析与在线实验相结合快速迭代是互联网产品的主要创新手段算法A算法B算法B通过反馈来验证算法优劣搜索引擎的迭代5%5%OnlineLearningA/Btest策略机器学习平台FeatureTraining数据网页网页库倒排表DataMining想法原型系统快速开发测试产品部署运维开发框架互联网产品的迭代A/B测试,持续优化数据智能验证数据分析应用引擎云测试应用引擎数据架构技术互联网服务enable数据智能IT产业生产力的变化‘60‘70‘80‘90‘00‘10硬件Mainframe软件PCInternetInf+人+数据Cloud迭代的本质是让人参与系统进化,而BigData为迭代指导方向,Infrastructure则加速迭代。软件+人互联网服务的典型技术特点超大规模快速迭代数据智能软件基础架构大数据数据中心、网络、服务器数据中心计算云计算技术体系DiskFlashPipeK/VFileTable统一存储体系–平衡大容量、高并发、低延迟–不同访问模式通过组合满足统一访问与传输数据访问层P2PCDN分布式存储描述能力数据流优化控制流管理资源分配优先级、并发控制隔离、安全执行层模型层MapReduce表示层SQL-like翻译JoinSelectTop分布式计算BCDA实时存储与计算kNN查询平台向量计算引擎流式数据处理引擎PubSub引擎机器学习算法平台OLAP引擎复杂事件处理引擎分布式数据结构超大规模数据仓库图查询平台实时检索平台向量计算引擎VectorLayoutMap-ShuffleOperators/CheckpointSIMDProgram复杂事件处理average(price)trigger(?,b,c)filter(b)pattern(a->b->c)condition(func(a,b,c))流式计算模型windowstepboundtimeM=Stream目标•1000PB•10亿维特征训练•100维条件查询•流式•触发式海量高维、多维实时更大、更复杂、更快!数据智能分布式存储与计算大规模人工辅劣标注系统人计算向量引擎MachineLearning算法WebContents流式处理LogsPubSub推荐系统...