Spark的Shuffle總結分析

2020-02-16 07:28:00 架構師師長

一、shuffle原理分析

1.1 shuffle概述

一、shuffle原理分析

1.1 shuffle概述

Shuffle就是對數據進行重組，由於分佈式計算的特性和要求，在實現細節上更加繁瑣和複雜。

在MapReduce框架，Shuffle是連接Map和Reduce之間的橋樑，Map階段通過shuffle讀取數據並輸出到對應的Reduce，而Reduce階段負責從Map端拉取數據並進行計算。在整個shuffle過程中，往往伴隨著大量的磁盤和網絡I/O。所以shuffle性能的高低也直接決定了整個程序的性能高低。而Spark也會有自己的shuffle實現過程。

1.2 Spark中的 shuffle 介紹

在DAG調度的過程中，Stage 階段的劃分是根據是否有shuffle過程，也就是存在 寬依賴 的時候,需要進行shuffle,這時候會將 job 劃分成多個Stage，每一個 Stage 內部有很多可以並行運行的 Task。

stage與stage之間的過程就是 shuffle 階段，在 Spark 中，負責 shuffle 過程的執行、計算和處理的組件主要就是 ShuffleManager 。ShuffleManager 隨著Spark的發展有兩種實現的方式，分別為 HashShuffleManager 和 SortShuffleManager ，因此spark的Shuffle有 Hash Shuffle 和

Sort Shuffle 兩種。

1.3 HashShuffle機制

1.3.1 HashShuffle 的介紹

在 Spark 1.2 以前，默認的shuffle計算引擎是 HashShuffleManager 。

HashShuffleManager 有著一個非常嚴重的弊端，就是會產生大量的中間磁盤文件，進而由大量的磁盤IO操作影響了性能。因此在Spark 1.2以後的版本中，默認的 ShuffleManager 改成了 SortShuffleManager 。

SortShuffleManager 相較於 HashShuffleManager 來說，有了一定的改進。主要就在於每個Task在進行shuffle操作時，雖然也會產生較多的臨時磁盤文件，但是最後會將所有的臨時文件合併(merge)成一個磁盤文件，因此每個 Task 就只有一個磁盤文件。在下一個 Stage 的shuffle read task拉取自己的數據時，只要根據索引讀取每個磁盤文件中的部分數據即可。

Hash shuffle是不具有排序的Shuffle。

1.3.2 普通機制的Hash shuffle

HashShuffleManager的運行機制主要分成兩種：一種是普通運行機制，另一種是合併運行機制，而合併機制主要是通過複用buffer來優化Shuffle過程中產生的小文件的數量。

先簡單說明一下情況。此時任務劃分為了兩個 Stage ，第一個 Stage 最上方有4個 MapTask ，而第二個 Stage 有3個 ReduceTask，但是如果我們現在的MapTask增多成1000個，那我們所產生的 block file 那不就有 MapTask*3 這麼多了，在這時大量的IO操作會造成很大的性能問題

1.3.3 普通機制的 Hash shuffle 的步驟詳細說明

這裡我們先明確一個假設前提：每個Executor只有1個CPU core，也就是說，無論這個Executor上分配多少個task線程，同一時間都只能執行一個task線程。

圖中有3個ReduceTask，從ShuffleMapTask 開始那邊各自把自己進行 Hash 計算(分區器：hash/numReduce取模)，分類出3個不同的類別，每個 ShuffleMapTask 都分成3種類別的數據，想把不同的數據匯聚然後計算出最終的結果，所以ReduceTask 會在屬於自己類別的數據收集過來，匯聚成一個同類別的大集合，每1個 ShuffleMapTask 輸出3份本地文件，這裡有4個 ShuffleMapTask，所以總共輸出了4 x 3個分類文件 = 12個本地小文件。

Shuffle Write 階段：

主要就是在一個stage結束計算之後，為了下一個stage可以執行shuffle類的算子(比如reduceByKey，groupByKey)，而將每個task處理的數據按key進行分區。所謂 “分區”，就是對相同的key執行hash算法，從而將相同key都寫入同一個磁盤文件中，而每一個磁盤文件都只屬於reduce端的stage的一個task。在將數據寫入磁盤之前，會先將數據寫入內存緩衝中，當內存緩衝填滿之後，才會溢寫到磁盤文件中去。

那麼每個執行 Shuffle Write 的 Task，要為下一個 Stage 創建多少個磁盤文件呢? 很簡單，下一個stage的task有多少個，當前stage的每個task就要創建多少份磁盤文件。比如下一個stage總共有100個task，那麼當前stage的每個task都要創建100份磁盤文件。如果當前stage有50個task，總共有10個Executor，每個Executor執行5個Task，那麼每個Executor上總共就要創建500個磁盤文件，所有Executor上會創建5000個磁盤文件。由此可見，未經優化的shuffle write操作所產生的磁盤文件的數量是極其驚人的。

Shuffle Read 階段：

Shuffle Read，通常就是一個stage剛開始時要做的事情。此時該stage的每一個task就需要將上一個stage的計算結果中的所有相同key，從各個節點上通過網絡都拉取到自己所在的節點上，然後進行key的聚合或連接等操作。由於shuffle write的過程中，task給Reduce端的stage的每個task都創建了一個磁盤文件，因此shuffle read的過程中，每個task只要從上游stage的所有task所在節點上，拉取屬於自己的那一個磁盤文件即可。

Shuffle Read的拉取過程是一邊拉取一邊進行聚合的。每個shuffle read task都會有一個自己的buffer緩衝，每次都只能拉取與buffer緩衝相同大小的數據，然後通過內存中的一個Map進行聚合等操作。聚合完一批數據後，再拉取下一批數據，並放到buffer緩衝中進行聚合操作。以此類推，直到最後將所有數據到拉取完，並得到最終的結果。

注意：

buffer起到的是緩存作用，緩存能夠加速寫磁盤，提高計算的效率,buffer的默認大小32k。
分區器：根據hash/numRedcue取模決定數據由幾個Reduce處理，也決定了寫入幾個buffer中
block file：磁盤小文件，從圖中我們可以知道磁盤小文件的個數計算公式：block file=M*R 。 M為map task的數量，R為Reduce的數量，一般Reduce的數量等於buffer的數量，都是由分區器決定的

Hash shuffle普通機制的問題：

Shuffle階段在磁盤上會產生海量的小文件，建立通信和拉取數據的次數變多,此時會產生大量耗時低效的 IO 操作 (因為產生過多的小文件)
可能導致 OOM，大量耗時低效的 IO 操作，導致寫磁盤時的對象過多，讀磁盤時候的對象也過多，這些對象存儲在堆內存中，會導致堆內存不足，相應會導致頻繁的GC，GC會導致OOM。由於內存中需要保存海量文件操作句柄和臨時信息，如果數據處理的規模比較龐大的話，內存不可承受，會出現 OOM 等問題

1.3.4 合併機制的Hash shuffle

合併機制就是複用buffer緩衝區，開啟合併機制的配置是spark.shuffle.consolidateFiles。該參數默認值為false，將其設置為true即可開啟優化機制。通常來說，如果我們使用HashShuffleManager，那麼都建議開啟這個選項。

這裡有6個這裡有6個shuffleMapTask，數據類別還是分成3種類型，因為Hash算法會根據你的 Key 進行分類，在同一個進程中，無論是有多少過Task，都會把同樣的Key放在同一個Buffer裡，然後把Buffer中的數據寫入以Core數量為單位的本地文件中，(一個Core只有一種類型的Key的數據)，每1個Task所在的進程中，分別寫入共同進程中的3份本地文件，這裡有6個shuffleMapTasks，所以總共輸出是 2個Cores x 3個分類文件 = 6個本地小文件。

此時block file = Core * R ，Core為CPU的核數，R為Reduce的數量，但是如果 Reducer 端的並行任務或者是數據分片過多的話則 Core * Reducer Task 依舊過大，也會產生很多小文件。

1.4 Sort shuffle

SortShuffleManager的運行機制也是主要分成兩種，普通運行機制 和 bypass運行機制

1.4.1 Sort shuffle 的普通機制

在該模式下，數據會先寫入一個數據結構，聚合算子寫入 Map，一邊通過 Map 局部聚合，一遍寫入內存。Join 算子寫入 ArrayList 直接寫入內存中。然後需要判斷是否達到閾值（5M），如果達到就會將內存數據結構的數據寫入到磁盤，清空內存數據結構。

在溢寫磁盤前，先根據 key 進行排序，排序過後的數據，會分批寫入到磁盤文件中。默認批次為10000條，數據會以每批一萬條寫入到磁盤文件。寫入磁盤文件通過緩衝區溢寫的方式，每次溢寫都會產生一個磁盤文件，也就是說一個task過程會產生多個臨時文件。

最後在每個task中，將所有的臨時文件合併，這就是 merge 過程，此過程將所有臨時文件讀取出來，一次寫入到最終文件。意味著一個task的所有數據都在這一個文件中。同時單獨寫一份索引文件，標識下游各個task的數據在文件中的索引start offset和end offset（比如對於wordCount，下標從哪裡（start offset）到哪裡（end offset）是這個單詞）。

這個機制的好處：

小文件明顯變少了，一個task只生成一個file文件
file文件整體有序，加上索引文件的輔助，查找變快，雖然排序浪費一些性能，但是查找變快很多

1.4.2 bypass模式的sortShuffle

bypass機制運行條件是shuffle map task數量小於spark.shuffle.sort.bypassMergeThreshold參數（默認值200）的值，且不是聚合類的shuffle算子（比如reduceByKey）

在 shuffleMapTask 數量 小於默認值200 時，啟用bypass模式的 sortShuffle，並沒有進行sort，原因是數據量本身比較少，沒必要進行sort全排序，因為數據量少本身查詢速度就快，正好省了sort的那部分性能開銷。

1.5 使用到的參數

1.5.1 spark.shuffle.file.buffer

buffer大小默認是32K，為了減少磁盤溢寫的次數，可以適當調整這個數值的大小。降低磁盤IO

1.5.2 spark.reducer.MaxSizeFlight

ReduceTask 拉取數據量的大小，默認48M

1.5.3 spark.shuffle.memoryFraction

shuffle聚合內存的比例，佔用executor內存比例的大小

1.5.4 spark.shuffle.io.maxRetries

拉取數據重試次數，防止網絡抖動帶來的影響

1.5.5 spark.shuffle.io.retryWait

調整到重試間隔時間，拉取失敗後多久才重新進行拉取

1.5.6 spark.shuffle.consolidateFiles

針對 HashShuffle 合併機制

1.5.7 spark.shuffle.sort.bypassMergeThreshold

SortShuffle bypass機制，默認200次

1.5.8 spark.sql.shuffle.partitions

默認200，shuffle時所使用到的分區數，也就是你生成的 part-00000，part-00001···最多也就只能 part-00199 了

Shuffle就是對數據進行重組，由於分佈式計算的特性和要求，在實現細節上更加繁瑣和複雜。

1.2 Spark中的 shuffle 介紹

Sort Shuffle 兩種。

1.3 HashShuffle機制

1.3.1 HashShuffle 的介紹

在 Spark 1.2 以前，默認的shuffle計算引擎是 HashShuffleManager 。

Hash shuffle是不具有排序的Shuffle。

1.3.2 普通機制的Hash shuffle

1.3.3 普通機制的 Hash shuffle 的步驟詳細說明

這裡我們先明確一個假設前提：每個Executor只有1個CPU core，也就是說，無論這個Executor上分配多少個task線程，同一時間都只能執行一個task線程。

Shuffle Write 階段：

Shuffle Read 階段：

注意：

buffer起到的是緩存作用，緩存能夠加速寫磁盤，提高計算的效率,buffer的默認大小32k。
分區器：根據hash/numRedcue取模決定數據由幾個Reduce處理，也決定了寫入幾個buffer中
block file：磁盤小文件，從圖中我們可以知道磁盤小文件的個數計算公式：block file=M*R 。 M為map task的數量，R為Reduce的數量，一般Reduce的數量等於buffer的數量，都是由分區器決定的

Hash shuffle普通機制的問題：

Shuffle階段在磁盤上會產生海量的小文件，建立通信和拉取數據的次數變多,此時會產生大量耗時低效的 IO 操作 (因為產生過多的小文件)
可能導致 OOM，大量耗時低效的 IO 操作，導致寫磁盤時的對象過多，讀磁盤時候的對象也過多，這些對象存儲在堆內存中，會導致堆內存不足，相應會導致頻繁的GC，GC會導致OOM。由於內存中需要保存海量文件操作句柄和臨時信息，如果數據處理的規模比較龐大的話，內存不可承受，會出現 OOM 等問題

1.3.4 合併機制的Hash shuffle

1.4 Sort shuffle

SortShuffleManager的運行機制也是主要分成兩種，普通運行機制 和 bypass運行機制

1.4.1 Sort shuffle 的普通機制

這個機制的好處：

小文件明顯變少了，一個task只生成一個file文件
file文件整體有序，加上索引文件的輔助，查找變快，雖然排序浪費一些性能，但是查找變快很多

1.4.2 bypass模式的sortShuffle

bypass機制運行條件是shuffle map task數量小於spark.shuffle.sort.bypassMergeThreshold參數（默認值200）的值，且不是聚合類的shuffle算子（比如reduceByKey）

1.5 使用到的參數

1.5.1 spark.shuffle.file.buffer

buffer大小默認是32K，為了減少磁盤溢寫的次數，可以適當調整這個數值的大小。降低磁盤IO

1.5.2 spark.reducer.MaxSizeFlight

ReduceTask 拉取數據量的大小，默認48M

1.5.3 spark.shuffle.memoryFraction

shuffle聚合內存的比例，佔用executor內存比例的大小

1.5.4 spark.shuffle.io.maxRetries

拉取數據重試次數，防止網絡抖動帶來的影響

1.5.5 spark.shuffle.io.retryWait

調整到重試間隔時間，拉取失敗後多久才重新進行拉取

1.5.6 spark.shuffle.consolidateFiles

針對 HashShuffle 合併機制

1.5.7 spark.shuffle.sort.bypassMergeThreshold

SortShuffle bypass機制，默認200次

1.5.8 spark.sql.shuffle.partitions

默認200，shuffle時所使用到的分區數，也就是你生成的 part-00000，part-00001···最多也就只能 part-00199 了

分享到:

閱讀更多 架構師師長 的文章

關鍵字: 中央處理器算法 MapReduce

Spark-local本地環境搭建

Spark SQL

Spark 網頁式開發（五）

Spark SQL 使用反射推斷模式

Spark SQL簡介

Spark 安裝教程

Spark RDD介紹

Spark 簡介與特徵

Spark 網頁式開發（二）

Spark 網頁式開發（一）

spark-submit之後，spark集群內發生了什麼？讓我們一探究竟

03.02 Spark+Zookeeper搭建高可用Spark集群

Spark SQL常見4種數據源詳解

Spark 機器學習四大類算法

Spark for Java: SparkCore RDD Value類型方法案例

Spark SQL概述

12.21 Spark RDD 概念以及核心原理

Spark Troubleshooting（故障排除）

Spark 數據傾斜解決方案

Spark JVM調優

Spark Shuffle調優

Spark 算子調優

Spark 常規性能調優

Spark BlockManager解析

Spark 內存管理

Spark-Core：調度

大數據乾貨分享：Spark Streaming 數據清理機制

Spark 核心概念

Spark Streaming狀態管理函數的選擇比較

hive on spark,spark sql 對比測試結果相差很大

Spark，從入門到精通

Hello Spark!

Spark Standalone集群模式部署（Window）及其Python開發環境搭建

11.14 Spark——診斷內存消耗

Spark-關於Shuffle

Spark 處理大數據的異常解決方案彙總

Spark Streaming VS Flink

Spark Graphx的API操作

Spark SQL與DataFrame詳解以及使用

Spark 彈性分佈式數據集（RDD）

Spark SQL支持的功能測試

Spark Shuffle 過程

spark-sql對多層級parquet支持

spark hadoop數據傾斜問題

Spark Runtime概述

Spark Streaming的容錯

Spark 讀取單個文本文件速度很慢解決方法

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"

Spark的Shuffle總結分析

一、shuffle原理分析

1.1 shuffle概述

一、shuffle原理分析

1.1 shuffle概述

1.2 Spark中的 shuffle 介紹

1.3 HashShuffle機制

1.3.1 HashShuffle 的介紹

1.3.2 普通機制的Hash shuffle

1.3.3 普通機制的 Hash shuffle 的步驟詳細說明

1.3.4 合併機制的Hash shuffle

1.4 Sort shuffle

1.4.1 Sort shuffle 的普通機制

1.4.2 bypass模式的sortShuffle

1.5 使用到的參數

1.5.1 spark.shuffle.file.buffer

1.5.2 spark.reducer.MaxSizeFlight

1.5.3 spark.shuffle.memoryFraction

1.5.4 spark.shuffle.io.maxRetries

1.5.5 spark.shuffle.io.retryWait

1.5.6 spark.shuffle.consolidateFiles

1.5.7 spark.shuffle.sort.bypassMergeThreshold

1.5.8 spark.sql.shuffle.partitions

1.2 Spark中的 shuffle 介紹

1.3 HashShuffle機制

1.3.1 HashShuffle 的介紹

1.3.2 普通機制的Hash shuffle

1.3.3 普通機制的 Hash shuffle 的步驟詳細說明

1.3.4 合併機制的Hash shuffle

1.4 Sort shuffle

1.4.1 Sort shuffle 的普通機制

1.4.2 bypass模式的sortShuffle

1.5 使用到的參數

1.5.1 spark.shuffle.file.buffer

1.5.2 spark.reducer.MaxSizeFlight

1.5.3 spark.shuffle.memoryFraction

1.5.4 spark.shuffle.io.maxRetries

1.5.5 spark.shuffle.io.retryWait

1.5.6 spark.shuffle.consolidateFiles

1.5.7 spark.shuffle.sort.bypassMergeThreshold

1.5.8 spark.sql.shuffle.partitions

相關文章:

Spark-local本地環境搭建

Spark SQL

Spark 網頁式 開發 （五）

Spark SQL 使用反射推斷模式

Spark SQL簡介

Spark 安裝教程

Spark RDD介紹

Spark 簡介與特徵

Spark 網頁式 開發 （二）

Spark 網頁式開發（一）

spark-submit之後，spark集群內發生了什麼？讓我們一探究竟

03.02 Spark+Zookeeper搭建高可用Spark集群

Spark SQL常見4種數據源詳解

Spark 機器學習四大類算法

Spark for Java: SparkCore RDD Value類型方法案例

Spark SQL概述

12.21 Spark RDD 概念以及核心原理

Spark Troubleshooting（故障排除）

Spark 數據傾斜解決方案

Spark JVM調優

Spark Shuffle調優

Spark 算子調優

Spark 常規性能調優

Spark BlockManager解析

Spark 內存管理

Spark-Core：調度

大數據乾貨分享：Spark Streaming 數據清理機制

Spark 核心概念

Spark Streaming狀態管理函數的選擇比較

hive on spark,spark sql 對比測試結果相差很大

Spark，從入門到精通

Hello Spark!

Spark Standalone集群模式部署（Window）及其Python開發環境搭建

11.14 Spark——診斷內存消耗

Spark-關於Shuffle

Spark 處理大數據的異常解決方案彙總

Spark Streaming VS Flink

Spark Graphx的API操作

Spark 網頁式開發（五）

Spark 網頁式開發（二）

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

小白怎麼學Web前端開發如何成為技術達人

學Java編程還有前景嗎如何才能拿到高薪