SPARKSPARK设计指南设计指南培训目标培训目标•培训对象各分支,产品线大数据平台开发、维护人员•培训内容Spark与MapReduce的对比以及Spark的应用
2311什么是SparkP4P422Spark与MapReduce的对比P5P533Spark的相关概念P7P744Spark案例分析PP1919目录目录什么是什么是SparkSpark4Spark是UCBerkeleyAMPlab所开源的类HadoopMapReduce的通用并行框架
spark输出结果可以保存在内存中,从而不再需要读写HDFS
Spark启用了内存分布数据集,能够提供交互式查询,还可以优化迭代工作负载MapReduceMapReduce存在的问题存在的问题5编程原语比较少,难以使用只有map,reduce这两种操作一个Job只有map->reduce两个阶段无法表现比如map->reduce->map->reduce这样的复杂任务复杂的任务需要多个Job完成性能比较差Reduce的结果需要输出到HDFS多个Job之间需要频繁读写磁盘对于迭代式任务性能尤其差时延比较差,无法处理即席查询和实时查询Reduce任务需要等所有的Map任务完成才可以开始SparkSpark与与hadoophadoop的对比的对比6Spark的中间数据放到内存中,对于迭代运算效率更高
Spark比Hadoop更通用Spark提供的数据集操作类型有很多种,不像Hadoop只提供了Map和Reduce两种操作
比如map,filter,flatMap,sample,groupByKey,reduceByKey,union,join,cogroup,mapValues,sort,partionBy等多种操作类型,Spark把这些操作称为Transformations
同时还提供Count,collect,