Spark核心技术原理透视一Spark运行原理

下载本文档

阅读 133
下载 12
格式 docx
大小 812.64 KB
约11页
2025-02-10 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/11页

2/11页

3/11页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

/11

文本预览下载提示常见问题

精品文档---下载后可任意编辑在大数据领域，只有深挖数据科学领域，走在学术前沿，才能在底层算法和模型方面走在前面，从而占据领先地位。Spark 的这种学术基因，使得它从一开始就在大数据领域建立了一定优势。无论是性能，还是方案的统一性，对比传统的 Hadoop，优势都非常明显。Spark 提供的基于 RDD 的一体化解决方案，将MapReduce、Streaming、SQL、Machine Learning、Graph Processing 等模型统一到一个平台下，并以一致的 API 公开，并提供相同的部署方案，使得 Spark 的工程应用领域变得更加广泛。本文主要分以下章节：一、Spark 专业术语定义二、Spark 运行基本流程三、Spark 运行架构特点四、Spark 核心原理透视一、Spark 专业术语定义1、Application：Spark 应用程序指的是用户编写的 Spark 应用程序，包含了 Driver 功能代码和分布在集群中多个节点上运行的 Executor 代码。Spark 应用程序，由一个或多个作业 JOB 组成，如下图所示:2、Driver：驱动程序Spark 中的 Driver 即运行上述 Application 的 Main()函数并且创建 SparkContext，其中创建SparkContext 的目的是为了准备 Spark 应用程序的运行环境。在 Spark 中由 SparkContext 负责和ClusterManager 通信，进行资源的申请、任务的分配和监控等；当 Executor 部分运行完毕后，Driver 负责将 SparkContext 关闭。通常 SparkContext 代表 Driver，如下图所示:3、Cluster Manager：资源管理器指的是在集群上猎取资源的外部服务，常用的有：Standalone，Spark 原生的资源管理器，由 Master 负责资源的分配；Haddop Yarn，由 Yarn 中的 ResearchManager 负责资源的分配；Messos，由 Messos 中的 Messos Master 负责资源管理，如下图所示:4、Executor：执行器Application 运行在 Worker 节点上的一个进程，该进程负责运行 Task，并且负责将数据存在内存或者磁盘上，每个 Application 都有各自独立的一批 Executor，如下图所示:精品文档---下载后可任意编辑5、Worker：计算节点集群中任何可以运行 Application 代码的节点，类似于 Yarn 中的 NodeManager 节点。在 Standalone 模式中指的就是通过 Slave 文件配置的 Worker 节点，在 Spark on Yarn 模式中指的就是 NodeManager 节点，在 Spark on Messos 模式中指的就是 Messos Slave 节点，如下图所示:6、RDD：弹性分布式数据集Resillie...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

Spark核心技术原理透视一Spark运行原理

精品文档---下载后可任意编辑在大数据领域，只有深挖数据科学领域，走在学术前沿，才能在底层算法和模型方面走在前面，从而占据领先地位

Spark 的这种学术基因，使得它从一开始就在大数据领域建立了一定优势

无论是性能，还是方案的统一性，对比传统的 Hadoop，优势都非常明显

Spark 提供的基于 RDD 的一体化解决方案，将MapReduce、Streaming、SQL、Machine Learning、Graph Processing 等模型统一到一个平台下，并以一致的 API 公开，并提供相同的部署方案，使得 Spark 的工程应用领域变得更加广泛

本文主要分以下章节：一、Spark 专业术语定义二、Spark 运行基本流程三、Spark 运行架构特点四、Spark 核心原理透视一、Spark 专业术语定义1、Application：Spark 应用程序指的是用户编写的 Spark 应用程序，包含了 Driver 功能代码和分布在集群中多个节点上运行的 Executor 代码

Spark 应用程序，由一个或多个作业 JOB 组成，如下图所示:2、Driver：驱动程序Spark 中的 Driver 即运行上述 Application 的 Main()函数并且创建 SparkContext，其中创建SparkContext 的目的是为了准备 Spark 应用程序的运行环境

在 Spark 中由 SparkContext 负责和ClusterManager 通信，进行资源的申请、任务的分配和监控等；当 Executor 部分运行完毕后，Driver 负责将 SparkContext 关闭

通常 SparkContext 代表 Driver，如下图所示:3、Cluster Manager：资源管理器指的是在集群上猎取资源的外部服务，常用的有：Standalone，Spark

一帆文传 + 关注: 实名认证
内容提供者

欢迎光临店铺，各类公文供您挑选。

收藏店铺进入空间

Spark核心技术原理透视一Spark运行原理

Spark核心技术原理透视一Spark运行原理

您可能关注的文档

相关文档

热门下载

相关标签