Spark Troubleshooting(故障排除)

1 故障排除一:控制reduce端緩衝大小以避免OOM

在Shuffle過程,reduce端task並不是等到map端task將其數據全部寫入磁盤後再去拉取,而是map端寫一點數據,reduce端task就會拉取一小部分數據,然後立即進行後面的聚合、算子函數的使用等操作。

reduce端task能夠拉取多少數據,由reduce拉取數據的緩衝區buffer來決定,因為拉取過來的數據都是先放在buffer中,然後再進行後續的處理,buffer的默認大小為48MB。

reduce端task會一邊拉取一邊計算,不一定每次都會拉滿48MB的數據,可能大多數時候拉取一部分數據就處理掉了。

雖然說增大reduce端緩衝區大小可以減少拉取次數,提升Shuffle性能,但是有時map端的數據量非常大,寫出的速度非常快,此時reduce端的所有task在拉取的時候,有可能全部達到自己緩衝的最大極限值,即48MB,此時,再加上reduce端執行的聚合函數的代碼,可能會創建大量的對象,這可難會導致內存溢出,即OOM。

如果一旦出現reduce端內存溢出的問題,我們可以考慮減小reduce端拉取數據緩衝區的大小,例如減少為12MB。

在實際生產環境中是出現過這種問題的,這是典型的以性能換執行的原理。reduce端拉取數據的緩衝區減小,不容易導致OOM,但是相應的,reudce端的拉取次數增加,造成更多的網絡傳輸開銷,造成性能的下降。

注意,要保證任務能夠運行,再考慮性能的優化。

2 故障排除二:JVM GC導致的shuffle文件拉取失敗

在Spark作業中,有時會出現shuffle file not found的錯誤,這是非常常見的一個報錯,有時出現這種錯誤以後,選擇重新執行一遍,就不再報出這種錯誤。

出現上述問題可能的原因是Shuffle操作中,後面stage的task想要去上一個stage的task所在的Executor拉取數據,結果對方正在執行GC,執行GC會導致Executor內所有的工作現場全部停止,比如BlockManager、基於netty的網絡通信等,這就會導致後面的task拉取數據拉取了半天都沒有拉取到,就會報出shuffle file not found的錯誤,而第二次再次執行就不會再出現這種錯誤。

可以通過調整reduce端拉取數據重試次數和reduce端拉取數據時間間隔這兩個參數來對Shuffle性能進行調整,增大參數值,使得reduce端拉取數據的重試次數增加,並且每次失敗後等待的時間間隔加長。

代碼清單4-1 JVM GC導致的shuffle文件拉取失敗

val conf = new SparkConf().set("spark.shuffle.io.maxRetries", "60").set("spark.shuffle.io.retryWait", "60s") 

3 故障排除三:解決各種序列化導致的報錯

當Spark作業在運行過程中報錯,而且報錯信息中含有Serializable等類似詞彙,那麼可能是序列化問題導致的報錯。

序列化問題要注意以下三點:

  1. 作為RDD的元素類型的自定義類,必須是可以序列化的;
  2. 算子函數里可以使用的外部的自定義變量,必須是可以序列化的;
  3. 不可以在RDD的元素類型、算子函數里使用第三方的不支持序列化的類型,例如Connection。

4 故障排除四:解決算子函數返回NULL導致的問題

在一些算子函數里,需要我們有一個返回值,但是在一些情況下我們不希望有返回值,此時我們如果直接返回NULL,會報錯,例如Scala.Math(NULL)異常。

如果你遇到某些情況,不希望有返回值,那麼可以通過下述方式解決:

  1. 返回特殊值,不返回NULL,例如“-1”;
  2. 在通過算子獲取到了一個RDD之後,可以對這個RDD執行filter操作,進行數據過濾,將數值為-1的數據給過濾掉;
  3. 在使用完filter算子後,繼續調用coalesce算子進行優化。

5 故障排除五:解決YARN-CLIENT模式導致的網卡流量激增問題

YARN-client模式的運行原理如下圖所示:

Spark Troubleshooting(故障排除)

圖4-1 YARN-client模式運行原理

在YARN-client模式下,Driver啟動在本地機器上,而Driver負責所有的任務調度,需要與YARN集群上的多個Executor進行頻繁的通信。

假設有100個Executor, 1000個task,那麼每個Executor分配到10個task,之後,Driver要頻繁地跟Executor上運行的1000個task進行通信,通信數據非常多,並且通信品類特別高。這就導致有可能在Spark任務運行過程中,由於頻繁大量的網絡通訊,本地機器的網卡流量會激增。

注意,YARN-client模式只會在測試環境中使用,而之所以使用YARN-client模式,是由於可以看到詳細全面的log信息,通過查看log,可以鎖定程序中存在的問題,避免在生產環境下發生故障。

在生產環境下,使用的一定是YARN-cluster模式。在YARN-cluster模式下,就不會造成本地機器網卡流量激增問題,如果YARN-cluster模式下存在網絡通信的問題,需要運維團隊進行解決。

6 故障排除六:解決YARN-CLUSTER模式的JVM棧內存溢出無法執行問題

YARN-cluster模式的運行原理如下圖所示:

Spark Troubleshooting(故障排除)

圖4-1 YARN-client模式運行原理

當Spark作業中包含SparkSQL的內容時,可能會碰到YARN-client模式下可以運行,但是YARN-cluster模式下無法提交運行(報出OOM錯誤)的情況。

YARN-client模式下,Driver是運行在本地機器上的,Spark使用的JVM的PermGen的配置,是本地機器上的spark-class文件,JVM永久代的大小是128MB,這個是沒有問題的,但是在YARN-cluster模式下,Driver運行在YARN集群的某個節點上,使用的是沒有經過配置的默認設置,PermGen永久代大小為82MB。

SparkSQL的內部要進行很複雜的SQL的語義解析、語法樹轉換等等,非常複雜,如果sql語句本身就非常複雜,那麼很有可能會導致性能的損耗和內存的佔用,特別是對PermGen的佔用會比較大。

所以,此時如果PermGen的佔用好過了82MB,但是又小於128MB,就會出現YARN-client模式下可以運行,YARN-cluster模式下無法運行的情況。

解決上述問題的方法時增加PermGen的容量,需要在spark-submit腳本中對相關參數進行設置,設置方法如代碼清單4-2所示。

代碼清單4-2 配置

--conf spark.driver.extraJavaOptions="-XX:PermSize=128M -XX:MaxPermSize=256M"

通過上述方法就設置了Driver永久代的大小,默認為128MB,最大256MB,這樣就可以避免上面所說的問題。

7 故障排除七:解決SparkSQL導致的JVM棧內存溢出

當SparkSQL的sql語句有成百上千的or關鍵字時,就可能會出現Driver端的JVM棧內存溢出。

JVM棧內存溢出基本上就是由於調用的方法層級過多,產生了大量的,非常深的,超出了JVM棧深度限制的遞歸。(我們猜測SparkSQL有大量or語句的時候,在解析SQL時,例如轉換為語法樹或者進行執行計劃的生成的時候,對於or的處理是遞歸,or非常多時,會發生大量的遞歸)

此時,建議將一條sql語句拆分為多條sql語句來執行,每條sql語句儘量保證100個以內的子句。根據實際的生產環境試驗,一條sql語句的or關鍵字控制在100個以內,通常不會導致JVM棧內存溢出。

8 故障排除八:持久化與checkpoint的使用

Spark持久化在大部分情況下是沒有問題的,但是有時數據可能會丟失,如果數據一旦丟失,就需要對丟失的數據重新進行計算,計算完後再緩存和使用,為了避免數據的丟失,可以選擇對這個RDD進行checkpoint,也就是將數據持久化一份到容錯的文件系統上(比如HDFS)。

一個RDD緩存並checkpoint後,如果一旦發現緩存丟失,就會優先查看checkpoint數據存不存在,如果有,就會使用checkpoint數據,而不用重新計算。也即是說,checkpoint可以視為cache的保障機制,如果cache失敗,就使用checkpoint的數據。

使用checkpoint的優點在於提高了Spark作業的可靠性,一旦緩存出現問題,不需要重新計算數據,缺點在於,checkpoint時需要將數據寫入HDFS等文件系統,對性能的消耗較大。


分享到:


相關文章: