Spark 核心概念_技术 _ 頭條網

Application：用户编写的Spark应用程序，包含驱动程序（Driver）和分布在集群中多个节点上运行的Executor代码，在执行过程中有一个或多个作业组成。

Driver：一个Spark作业运行时会启动一个Driver进程，也是作业的主进程，负责作业的解析、生成Stage，并调度Task到Executor上。Spark中的Driver即运行Application的main函数并且创建SparkContext，其中创建SparkContext的目的是为了准备Spark应用程序的运行环境。当Executor运行完毕后，Driver负责将SparkContext关系。 Cluster Manager:在集群上获取资源的外部服务，目前支持一下几种

Standalone：Spark原生的资源管理，由Master负责资源的管理。Hadoop Yarn：有Yarn中的ResourceManager负责资源的管理。Mesos：由Mesos中的Mesos Master负责资源的管理。

Master：Spark有Master和Worker。Master是集群的领导者，负责管理集群资源，接受Client提交的作业，以及向Worker发送命令。在Spark on Yarn模式中指得是NodeManager节点。

Worker：集群中的Worker，执行Master发送的指令，来具体分配资源，并在这些资源中执行任务。

Executor：真正执行作业的地方。Executor分布在集群中的Worker上，每个Executor接受Driver的命令来加载和运行Task，一个Executor可以执行一到多个Task。

SparkContext：是程序运行调度的核心，由高层调度器DAGScheduler划分程序的每个阶段，底层调度器TaskScheduler划分每个阶段的具体任务。SchedulerBackend管理整个集群，为正在运行的程序分配计算资源Executor。负责与ClusterManager通信，进行资源的申请、任务的分配和监控等。

DAGScheduler：负责高层调度，划分stage并生成程序运行的有向无环如。

TaskScheduler：负责具体stage内部的底层调度，具体task的调度、容错等。

Job：是Top-level的工作单位，每个Action算子都会触发一次Job，一个Job可能包含一个或多个Stage。

Stage：是用来计算中间结果的Tasksets。Tasksets中的Task逻辑对于同一个RDD内的不同partition都一样。Stage在Shuffle的地方产生，此时下一个Stage要用到上一个Stage的全部数据，所以要等到上一个Stage全部执行完才能开始。Stage有两种：ShuffleMapStage和ResultStage，除了最后一个Stage是ResultStage外，其他的Stage都是ShuffleMapStage。ShuffleStageMap会产生中间结果，以文件的方式保存在集群里，Stage经常被不同的Job共享，前提是这些Job重用了同一个RDD。

Task：任务执行的工作单元，每个Task会被发送到一个节点上，每个Task对应RDD的一个partition。

RDD：是不可变的、Lazy级别的、粗粒度（数据集级别而不是单个数据级别的）数据集合，包含了一个或多个数据分片，即partition。

算子：Spark程序中有两种级别的算子：Transformation和Action。Transformation算子会有DAGScheduler划分到pipeline中，是Lazy级别的，不会触发任务的执行。Action算子会触发Job来执行pipeline中的运算。

相關文章:

Spark-local本地环境搭建

Spark SQL

Spark 网页式 开发 （五）

Spark SQL 使用反射推断模式

Spark SQL简介

Spark 安装教程

Spark RDD介绍

Spark 简介与特征

Spark 网页式 开发 （二）

Spark 网页式开发（一）

spark-submit之后，spark集群内发生了什么？让我们一探究竟

03.02 Spark+Zookeeper搭建高可用Spark集群

Spark SQL常见4种数据源详解

Spark 机器学习四大类算法

Spark for Java: SparkCore RDD Value类型方法案例

Spark SQL概述

12.21 Spark RDD 概念以及核心原理

Spark Troubleshooting（故障排除）

Spark 数据倾斜解决方案

Spark JVM调优

Spark Shuffle调优

Spark 算子调优

Spark 常规性能调优

Spark BlockManager解析

Spark 内存管理

Spark-Core：调度

大数据干货分享：Spark Streaming 数据清理机制

Spark Streaming状态管理函数的选择比较

hive on spark,spark sql 对比测试结果相差很大

Spark，从入门到精通

Hello Spark!

Spark Standalone集群模式部署（Window）及其Python开发环境搭建

11.14 Spark——诊断内存消耗

Spark-关于Shuffle

Spark 处理大数据的异常解决方案汇总

Spark Streaming VS Flink

Spark Graphx的API操作

Spark SQL与DataFrame详解以及使用

Spark 弹性分布式数据集（RDD）

Spark SQL支持的功能测试

Spark Shuffle 过程

spark-sql对多层级parquet支持

spark hadoop数据倾斜问题

Spark Runtime概述

Spark Streaming的容错

Spark 读取单个文本文件速度很慢解决方法

大数据实战：spark DataFrame的union函数使用时的坑

第二章 IoC容器和Bean配置

运算里不得不说的python模块—math

Devops度量--DevOps 现状快速检查表

SOP是什么（解读）

还不知道交换机上如何配置DHCP，赶紧过来围观吧，一分钟包你学会

还在手动配置IP地址吗？太Low了，一分钟教会您如何配置DHCP

Python爬虫自学笔记：分析头条文章网页源文件

DNS侦查工具

国人开源的异步 Python ORM：GINO

程序测评：Create React App 3.3中有哪些酷炫新功能？

“明学”的魅力？我只要我觉得：驾驭终端，提高生产力

（必收藏系列）Linux面试题——命令集

五分钟学会如何在 IPFS 上部署网站

「正点原子NANO STM32F103开发板资料连载」第29章 内存管理实验

小白怎么学Web前端开发 如何成为技术达人

如何开发一个web静态服务器

学Java编程还有前景吗 如何才能拿到高薪

Python网络爬虫之配置篇（一）

SpringBoot 整合SpringSecurity示例实现前后分离权限注解+JWT登录认证

Python的运行效率太低？几行代码快速提升！

python的优点是什么？最新Python400集视频（附教程）

MySQL中OOM故障应如何下手-爱可生

像专家一样使用 panic

30种不同的编程语言怎么写“Hello, World”

percona QAN 介绍

面试官：你可以用纯CSS判断鼠标进入的方向吗？

网络工程师职业生涯中，哪两点是最重要的？

交换机中相关术语代表什么意思，有必要弄清楚

由浅入深了解以太坊 2.0：最常见问题和最全学习清单

【Linux简单实用小命令001】CentOS 7、8的防火墙端口开放

吃透这些IPFS硬核知识点，日后抢头矿随时“弯道超车”

Hive分桶表

Spark 网页式开发（五）

Spark 网页式开发（二）

「正点原子NANO STM32F103开发板资料连载」第29章内存管理实验

小白怎么学Web前端开发如何成为技术达人

学Java编程还有前景吗如何才能拿到高薪