电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

Spark核心技术原理透视一Spark运行原理

Spark核心技术原理透视一Spark运行原理_第1页
1/11
Spark核心技术原理透视一Spark运行原理_第2页
2/11
Spark核心技术原理透视一Spark运行原理_第3页
3/11
精品文档---下载后可任意编辑在大数据领域,只有深挖数据科学领域,走在学术前沿,才能在底层算法和模型方面走在前面,从而占据领先地位。Spark 的这种学术基因,使得它从一开始就在大数据领域建立了一定优势。无论是性能,还是方案的统一性,对比传统的 Hadoop,优势都非常明显。Spark 提供的基于 RDD 的一体化解决方案,将MapReduce、Streaming、SQL、Machine Learning、Graph Processing 等模型统一到一个平台下,并以一致的 API 公开,并提供相同的部署方案,使得 Spark 的工程应用领域变得更加广泛。本文主要分以下章节:一、Spark 专业术语定义二、Spark 运行基本流程三、Spark 运行架构特点四、Spark 核心原理透视一、Spark 专业术语定义1、Application:Spark 应用程序指的是用户编写的 Spark 应用程序,包含了 Driver 功能代码和分布在集群中多个节点上运行的 Executor 代码。Spark 应用程序,由一个或多个作业 JOB 组成,如下图所示:2、Driver:驱动程序Spark 中的 Driver 即运行上述 Application 的 Main()函数并且创建 SparkContext,其中创建SparkContext 的目的是为了准备 Spark 应用程序的运行环境。在 Spark 中由 SparkContext 负责和ClusterManager 通信,进行资源的申请、任务的分配和监控等;当 Executor 部分运行完毕后,Driver 负责将 SparkContext 关闭。通常 SparkContext 代表 Driver,如下图所示:3、Cluster Manager:资源管理器指的是在集群上猎取资源的外部服务,常用的有:Standalone,Spark 原生的资源管理器,由 Master 负责资源的分配;Haddop Yarn,由 Yarn 中的 ResearchManager 负责资源的分配;Messos,由 Messos 中的 Messos Master 负责资源管理,如下图所示:4、Executor:执行器Application 运行在 Worker 节点上的一个进程,该进程负责运行 Task,并且负责将数据存在内存或者磁盘上,每个 Application 都有各自独立的一批 Executor,如下图所示:精品文档---下载后可任意编辑5、Worker:计算节点集群中任何可以运行 Application 代码的节点,类似于 Yarn 中的 NodeManager 节点。在 Standalone 模式中指的就是通过 Slave 文件配置的 Worker 节点,在 Spark on Yarn 模式中指的就是 NodeManager 节点,在 Spark on Messos 模式中指的就是 Messos Slave 节点,如下图所示:6、RDD:弹性分布式数据集Resillie...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

Spark核心技术原理透视一Spark运行原理

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部