这5种必知的大数据处理框架技术,你的项目应该使用哪种
本文将介绍大数据系统一个最基本的组件:处理框架
处理框架负责对系统中的数据进行计算,例如处理从非易失存储中读取的数据,或处理刚刚摄入到系统中的数据
数据的计算则是指从大量单一数据点中提取信息和见解的过程
作者:佚名来源:大数据杂谈|2016-11-3013:37收藏分享本文将介绍大数据系统一个最基本的组件:处理框架
处理框架负责对系统中的数据进行计算,例如处理从非易失存储中读取的数据,或处理刚刚摄入到系统中的数据
数据的计算则是指从大量单一数据点中提取信息和见解的过程
下文将介绍这些框架:仅批处理框架:ApacheHadoop仅流处理框架:ApacheStormApacheSamza混合框架:ApacheSparkApacheFlink大数据处理框架是什么
处理框架和处理引擎负责对数据系统中的数据进行计算
虽然“引擎”和“框架”之间的区别没有什么权威的定义,但大部分时候可以将前者定义为实际负责处理数据操作的组件,后者则可定义为承担类似作用的一系列组件
例如ApacheHadoop可以看作一种以MapReduce作为默认处理引擎的处理框架
引擎和框架通常可以相互替换或同时使用
例如另一个框架ApacheSpark可以纳入Hadoop并取代MapReduce
组件之间的这种互操作性是大数据系统灵活性如此之高的原因之一
虽然负责处理生命周期内这一阶段数据的系统通常都很复杂,但从广义层面来看它们的目标是非常一致的:通过对数据执行操作提高理解能力,揭示出数据蕴含的模式,并针对复杂互动获得见解
为了简化这些组件的讨论,我们会通过不同处理框架的设计意图,按照所处理的数据状态对其进行分类
一些系统可以用批处理方式处理数据,一些系统可以用流方式处理连续不断流入系统的数据
此外还有一些系统可以同时处理这两类数据
在深入介绍不同实现的指标和结