大数据技术调研大数据研发小组苏林东2017/05北京应用物理与计算数学研究所,大数据联合实验室,2017目录❖什么是大数据技术?❖大数据技术发展历程❖大数据生命周期❖大数据技术生态❖大数据技术应用2什么是大数据技术?●大数据技术——在巨量的数据资源中提取到有价值的数据加以分析和处理o基础架构支持o数据采集o数据存储o数据计算o数据展现与交互3发展历程上世纪90年代至本世纪初2003–2006年•突破期•围绕非结构化数据自由探索2006–2009年•成熟期•并行运算和分布式系统2010年以后•萌芽期•数据挖掘•数据仓库、专家系统、知识管理系统•改变世界格局的技术的基石•各行业颠覆性创新的源动力和助推器•Facebook创立,社交网络流行•云计算、MapReduce、Hadoop•引爆大数据时代的两大事件Google的三篇论文——GFS(2003)、MapReduce(2004)、BigTable(2006)2005年,Yahoo工程师DougCutting和MikeCafarella合作开发了Hadoop。4大数据技术栈应用和服务(包括数据服务)编程和管理工具可视化数据分析数据安全计算处理数据存储和管理硬件平台:计算、存储和互联5大数据技术生态67大数据的技术基础●Google分布式计算模型i.MapReduce——分布式计算框架ii.GFS(GoogleFileSystem)——分布式文件系统iii.BigTable——基于GFS的数据存储系统o简化传统分布式理论,降低技术实现难度o应用成本十分低廉o没有开源其技术实现8开源生态圈9开源生态圈NoSQL数据库数据存储批处理即席查询流计算资源调度其他组件ZooKeeperYARNMapReduceSparkPigHBaseStormMahoutHDFSHiveEchartsCassandra、MongoDBSparkStreamingMesosImpala、Presto、DrillTez…10主流分布式系统:Hadoop●Hadoop——批处理系统起源:GFS→HDFS,GoogleMapReduce→HadoopMapReduce,BigTable→HBaseo适合大数据的分布式存储和计算平台HDFS负责海量数据的分布式存储MapReduce负责对数据的计算结果汇总o数据管理系统o大规模并行处理框架o开源社区18主流分布式系统:HadoopHDFSHDFSFederation:多个NameNode分管不同的目录一个NameNode和多个DataNodeMapReduce1.0编程模型+运行时环境一个JobTracker和多个TaskTrackerMapReduce2.0编程模型+运行在YARN之上JobTracker负责资源管理和所有作业的控制;TaskTracker负责接收来自JobTracker的命令并执行YARNResourceManager、ApplicationMaster与NodeManager替代JobTracker和TaskTracker19主流分布式系统:Hadoop扩容能力(Scalable)只适用于离线数据的成本低(Economical)处理平台改进后与各种新的计算模式和系统并存、融合高效率(Efficient)可靠性(Rellable)开源(OpenSource)20主流分布式系统:Storm●Storm——流处理系统o分布式的、容错的实时计算系统,流处理平台o可用于“连续计算”、“分布式RPC”编程模型简单,显著地降低了进行实时处理的难度无法进行批处理不能保证消息的处理顺序(Coreo在Hadoop的基础上提供了实时运算的特性有一个低达毫秒级Storm)的延迟互操作性o不进行数据的收集和存储工作21主流分布式系统:Spark●Spark——混合处理系统o包含流处理能力的下一代批处理框架用于构建大规模、低延时的数据分析应用o在Hdoop的基础上进行了一些架构上的改良基于Hadoop的MapReduce引擎侧重于完善的内存计算和处理优化机制,加快处理速度o使用内存存储数据,RDD的模式处理数据RDD:弹性分布式数据集,只位于内存中,永恒不变的结构22主流分布式系统:Spark-Tachyon分布式文件系统•允许文件以内存的速度在集群框架中进行可靠的共享-Shark数据查询分析计算•“SQLonSpark”,Spark上数据仓库的实现,性能最高可达Hive的一百倍-SparkStreaming流式计算-GraphX图计算-可以通过YARN、Mesos等实现在Hadoop文件系统上与Hadoop一起运行Spark生态系统23主流分布式系统:Spark超过Hadoop一百倍的运算不能用于处理需要长期保速度存的数据提供强大的内存计算引擎:成本更高迭代、批处理、内存、流资源消耗更大式、数据查询分析以及图计算多样性易于编写24主流分布式系统:总结Hadoop•适合处理对时间要求不高的非常大规模数据集•廉价且高效...