02.12 Spark2.2.0精通：Spark系统架构、任务提交流程技术頭條網

02.12 Spark2.2.0精通：Spark系统架构、任务提交流程

2020-02-12 09:33:51 JasonLu1986

如果您觉得“大数据开发运维架构”对你有帮助，欢迎转发朋友圈

在讲解Spark系统架构之前，先给大家普及一些比较重要的概念：

Spark部署模式：

这里简单说一下，详细部署请自行百度，这个网上资料很多也很全，我这里不在说了：

Spark是一个基于内存的分布式并行处理框架，有几个关键字：分布式、基于内存、并行处理，因此学习它要学习它的分布式架构以及它实现高速并行计算的机理，下面是spark的任务执行架构图，整体划分为以下几部分：

一、Client客户端：负责任务的提交，执行提交命令，指定任务MainClass、资源需求、参数配置等；在yarn/standalone-client模式下，客户端提交程序后，Client新建一个Driver程序，这个client的作用持续到spark程序运行完毕，而yarn/standalone-cluster模式下，客户端提交程序后就不再发挥任何作用，也就是说仅仅发挥了提交程序包的作用。

二、Driver：主要是对SparkContext进行配置、初始化以及关闭。初始化SparkContext是为了构建Spark应用程序的运行环境，在初始化SparkContext，要先导入一些Spark的类和隐式转换；在Executor部分运行完毕后，需要将SparkContext关闭。

三、ClusterManager：负责接收任务的请求，分配计算资源、完成资源调度，一般采用FIFO策略；Driver向ClusterManager提交资源申请，ClusterManager结合任务资源需求和自身资源可用量，从Worker分配资源，并负责告知Driver资源分配结果,Driver接收到ClusterManager响应后发送Task到Worker执行，Worker通过心跳机制向ClusterManager汇报自己的资源和运行情况。

四、Executor：运行在worker节点上的一个进程，该进程负责运行某些Task，并且负责将数据存到内存或磁盘上，每个Application都有各自独立的一批Executor，在Spark on Yarn模式下，其进程名称为CoarseGrainedExecutor Backend。一个CoarseGrainedExecutor Backend有且仅有一个Executor对象，负责将Task包装成taskRunner,并从线程池中抽取一个空闲线程运行Task，这个每一个CoarseGrainedExecutor Backend能并行运行Task的数量取决于分配给它的cpu个数。