Spark Shuffle調優技术頭條網

2019-12-07 11:33:38 kane0409

1 Shuffle調優一：調節map端緩衝區大小

在Spark任務運行過程中，如果shuffle的map端處理的數據量比較大，但是map端緩衝的大小是固定的，可能會出現map端緩衝數據頻繁spill溢寫到磁盤文件中的情況，使得性能非常低下，通過調節map端緩衝的大小，可以避免頻繁的磁盤IO操作，進而提升Spark任務的整體性能。

map端緩衝的默認配置是32KB，如果每個task處理640KB的數據，那麼會發生640/32 = 20次溢寫，如果每個task處理64000KB的數據，機會發生64000/32=2000此溢寫，這對於性能的影響是非常嚴重的。

map端緩衝的配置方法如代碼清單2-7所示：

代碼清單2-7 map端緩衝配置

val conf = new SparkConf().set("spark.shuffle.file.buffer", "64")

2 Shuffle調優二：調節reduce端拉取數據緩衝區大小

Spark Shuffle過程中，shuffle reduce task的buffer緩衝區大小決定了reduce task每次能夠緩衝的數據量，也就是每次能夠拉取的數據量，如果內存資源較為充足，適當增加拉取數據緩衝區的大小，可以減少拉取數據的次數，也就可以減少網絡傳輸的次數，進而提升性能。

reduce端數據拉取緩衝區的大小可以通過spark.reducer.maxSizeInFlight參數進行設置，默認為48MB，該參數的設置方法如代碼清單2-8所示：

代碼清單2-8 reduce端數據拉取緩衝區配置

val conf = new SparkConf().set("spark.reducer.maxSizeInFlight", "96")

3 Shuffle調優三：調節reduce端拉取數據重試次數

Spark Shuffle過程中，reduce task拉取屬於自己的數據時，如果因為網絡異常等原因導致失敗會自動進行重試。對於那些包含了特別耗時的shuffle操作的作業，建議增加重試最大次數（比如60次），以避免由於JVM的full gc或者網絡不穩定等因素導致的數據拉取失敗。在實踐中發現，對於針對超大數據量（數十億~上百億）的shuffle過程，調節該參數可以大幅度提升穩定性。

reduce端拉取數據重試次數可以通過spark.shuffle.io.maxRetries參數進行設置，該參數就代表了可以重試的最大次數。如果在指定次數之內拉取還是沒有成功，就可能會導致作業執行失敗，默認為3，該參數的設置方法如代碼清單2-9所示：

代碼清單2-9 reduce端拉取數據重試次數配置

val conf = new SparkConf().set("spark.shuffle.io.maxRetries", "6")

4 Shuffle調優四：調節reduce端拉取數據等待間隔

Spark Shuffle過程中，reduce task拉取屬於自己的數據時，如果因為網絡異常等原因導致失敗會自動進行重試，在一次失敗後，會等待一定的時間間隔再進行重試，可以通過加大間隔時長（比如60s），以增加shuffle操作的穩定性。

reduce端拉取數據等待間隔可以通過spark.shuffle.io.retryWait參數進行設置，默認值為5s，該參數的設置方法如代碼清單2-10所示：

代碼清單2-10 reduce端拉取數據等待間隔配置

val conf = new SparkConf().set("spark.shuffle.io.retryWait", "60s")

5 Shuffle調優五：調節SortShuffle排序操作閾值

對於SortShuffleManager，如果shuffle reduce task的數量小於某一閾值則shuffle write過程中不會進行排序操作，而是直接按照未經優化的HashShuffleManager的方式去寫數據，但是最後會將每個task產生的所有臨時磁盤文件都合併成一個文件，並會創建單獨的索引文件。

當你使用SortShuffleManager時，如果的確不需要排序操作，那麼建議將這個參數調大一些，大於shuffle read task的數量，那麼此時map-side就不會進行排序了，減少了排序的性能開銷，但是這種方式下，依然會產生大量的磁盤文件，因此shuffle write性能有待提高。

SortShuffleManager排序操作閾值的設置可以通過spark.shuffle.sort. bypassMergeThreshold這一參數進行設置，默認值為200，該參數的設置方法如代碼清單2-11所示：

代碼清單2-10 reduce端拉取數據等待間隔配置

val conf = new SparkConf().set("spark.shuffle.sort.bypassMergeThreshold", "400")

分享到:

閱讀更多 kane0409 的文章

關鍵字: Java虛擬機 Spark 調優

Spark Shuffle調優

相關文章:

Spark-local本地環境搭建

Spark SQL

Spark 網頁式 開發 （五）

Spark SQL 使用反射推斷模式

Spark SQL簡介

Spark 安裝教程

Spark RDD介紹

Spark 簡介與特徵

Spark 網頁式 開發 （二）

Spark 網頁式開發（一）

spark-submit之後，spark集群內發生了什麼？讓我們一探究竟

03.02 Spark+Zookeeper搭建高可用Spark集群

Spark SQL常見4種數據源詳解

Spark 機器學習四大類算法

Spark for Java: SparkCore RDD Value類型方法案例

Spark SQL概述

12.21 Spark RDD 概念以及核心原理

Spark Troubleshooting（故障排除）

Spark 數據傾斜解決方案

Spark JVM調優

Spark 算子調優

Spark 常規性能調優

Spark BlockManager解析

Spark 內存管理

Spark-Core：調度

大數據乾貨分享：Spark Streaming 數據清理機制

Spark 核心概念

Spark Streaming狀態管理函數的選擇比較

hive on spark,spark sql 對比測試結果相差很大

Spark，從入門到精通

Hello Spark!

Spark Standalone集群模式部署（Window）及其Python開發環境搭建

11.14 Spark——診斷內存消耗

Spark-關於Shuffle

Spark 處理大數據的異常解決方案彙總

Spark Streaming VS Flink

Spark Graphx的API操作

Spark SQL與DataFrame詳解以及使用

Spark 彈性分佈式數據集（RDD）

Spark SQL支持的功能測試

Spark Shuffle 過程

spark-sql對多層級parquet支持

spark hadoop數據傾斜問題

Spark Runtime概述

Spark Streaming的容錯

Spark 讀取單個文本文件速度很慢解決方法

大數據實戰：spark DataFrame的union函數使用時的坑

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

為什麼只有edg賺錢？

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

我們買的新商品房還沒有拿到房產證，怎麼轉賣最好？

為什麼突厥人可以成功復國？是大唐的刀不鋒利了麼？

小高層16層高樓間距60米哪一層比較好？

金銀花盆栽好養嗎？怎麼養？

長城對於抵禦古代匈奴和蒙古人起到了多大作用？

什麼樹可以嫁接臘梅？

行情堪憂，還有多少教育機構的老師們五一假期有課上的？課時量多不多？

在農村“立夏節”都有哪些民間習俗？

男朋友失望分手，但對我還有感覺，答應我兩個月之後可以在一起，我應該怎麼做，才能改變之前他對我的看法？

工程分包乙方人員傷殘誰承擔？

有哪些看起來毫不相關的兩個歷史人物實際上有過聯繫？

13年雪鐵龍世嘉自動擋7萬多公里，沒有水泡事故，多少錢能買？

22+吃土少女17年就有駕駛證了，今年才開始開車，想買個二手昂克賽拉，或者有什麼好建議嗎？

如何騎車去臺灣騎行？

本人預算5萬左右，想買一輛二手法系車！求推薦？

14年進口馬自達5PK進口10年道奇酷威買哪個划算？

2020年，河南教育行業國務院特殊津貼推薦，河南大學並列第三，大家怎麼看？

本田CRV2019款1.5T舒適版油耗高嗎？

國外疫情如果沒有得到有效控制，世界會發生什麼事情？頭腦風暴？

本田XRV這款車的整體表現怎麼樣？我想買1.5T自動豪華版，全款多少錢？

現在存款有14萬，借了5萬還沒收回來，該做什麼好？

2070super和5700xt買哪個比較好？

生完二胎後，感覺自己有點抑鬱，總是想發火，特別煩躁，怎麼辦？

人這一生遇到的人和事為什麼感覺都像是必然的經歷？

現在校內校外到底教的是美式英語還是英式英語還是混搭英語？

上有老下有小，我們真的跳不出這個人生循環了嗎？

如果外面正在下小雨，你會突然想起了誰？

初中同學許久未見大學期間突然聯繫請吃飯，態度還良好，我給推了，會不會讓人很煩？

Spark 網頁式開發（五）

Spark 網頁式開發（二）

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？？