0599-5.14.4-HDFS出現大量BrokenPipe異常處理

2019-04-13 10:04:10 Hadoop實操

1.故障描述

在HBase和Hive集群中HDFS的DataNode節點均有大量的異常日誌，詳細日誌信息如下：

2019-02-25 17:02:02,153 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: BlockSender.sendChunks() exception: 
java.io.IOException: 斷開的管道
 at sun.nio.ch.FileChannelImpl.transferTo0(Native Method)
 at sun.nio.ch.FileChannelImpl.transferToDirectlyInternal(FileChannelImpl.java:416)
 at sun.nio.ch.FileChannelImpl.transferToDirectly(FileChannelImpl.java:481)
 at sun.nio.ch.FileChannelImpl.transferTo(FileChannelImpl.java:596)
 at org.apache.hadoop.net.SocketOutputStream.transferToFully(SocketOutputStream.java:223)
...

主要以Hive集群分析為主，該集群中有hive01和hive02兩個節點即是管理節點也是數據節點，這兩個節點上出現了大量的“Broken Pipe”異常日誌

2.故障分析階段（平臺層面）

通過提供給Cloudera售後的HDFS日誌、lsof日誌以及其它蒐集的日誌，在初步分析後反應出來的現象HBase出現性能問題是由於底層的HDFS不穩定導致。在HDFS的DataNode節點有大量的“Broken Pipe”異常，由於大量的Broken Pipe導致DataNode讀寫Block時重試從而導致基於HDFS的HBase等應用會出現性能下降的問題。

售後提出協調系統管理員分析系統層面的問題，在OS層面與舊集群未做任何變動，系統的參數及Hadoop的基本運行環境均與舊集群一致。

1. 通過分析Hive集群發現 NameNode GC頻繁且耗時，如下圖所示

將NameNode的Java heap大小從6GB調整至10GB

增加NameNode的Heap大小後通過jstat命令和CM監控界面進行監控，看到NameNode的GC得到緩解

sudo -u hdfs /usr/java/jdk1.7.0_80/bin/jstat -gcutil 180080 1000 1000

通過調整NameNode Heap大小，解決了NameNode頻繁且耗時的GC問題，但並沒有解決DataNode服務的“Broken Pipe”問題。

2. 期間通過調整hive01節點DataNode服務的日誌未DEBUG級別，重啟DataNode服務後分析輸出的Debug日誌

日誌能夠輸出DN節點操作每個Block的大小等一些詳細信息，但對於拋出的異常堆棧信息還是不夠詳細，無法通過堆棧信息定位到DN在操作哪個Block時輸出的異常，無法很好的跟中異常異常日誌所連接的TCP端口號及對應的DN節點。

3. 在分析集群的配置參數時，發現集群的幾個數據節點內存使用都過高

期間懷疑是集群資源使用過高，導致DataNode節點讀寫數據慢導致，通過將角色分組的方式將hive01和hive02節點劃分到一個獨立的角色組，並降低Yarn資源的內存使用至48GB。通過重啟NodeManager服務觀察DataNode節點任然出現大量“Broken Pipe”異常。

4. 在查看OS的關於tcp的內核參數時，發現多個關於tcp連接有關的參數配置，懷疑內核參數配置導致TCP連接中斷，通過將sysctl.conf配置文件中的部分tcp內核配置屏蔽

原始配置如下：

修改後配置如下：

經過觀察DataNode服務仍然有大量的“Broken Pipe”異常。

5. 通過分析HDFS的源碼異常信息拋出的代碼段，發現DN服務在讀取當前節點的Block時，將Block發送至其他DN節點時，由於TCP連接中斷導致拋出“Broken Pipe”異常信息

通過DataXceiverServer服務判斷當前DatNode啟動的xceiver線程數是否達到設置的最大值（dfs.datanode.max.transfer.threads，默認4096）如果沒有達到最大值則啟動線程

初始化initDataXceiver時指定的sockewriteTimeOut值，該值對於HDFS的

dfs.datanode.socket.write.timeout 默認8*60*1000
dfs.client.socket-timeout 默認60 * 1000
dfs.datanode.socket.reuse.keepalive 默認4000
dfs.datanode.transfer.socket.recv.buffer.size 默認值131072

3.故障分析階段（網絡層面）

1. 從系統網卡的信息上看，網卡存在大量丟包的情況，並且出現”Broken Pipe”異常的節點上的丟包數要明顯多於未出現該異常的節點，懷疑可能是網絡配置問題。

出現”Broken Pipe”異常的hive01和hive02節點：

未出現”Broken Pipe”異常的hive03和hive04節點：

2. 使用tcpdump工具從報錯節點上抓取數據包信息，使用wireshark進行分析，在抓出的數據包中出現如下一些錯誤，運維同事初步懷疑是否是做的bond網卡有問題。

3. 根據運維同事介紹，目前hive集群與hbase集群的網絡架構如下

每一臺節點都通過兩個萬兆物理網卡實現高可用，本次測試通過將hive集群上每臺節點上的一個網卡接口禁用，使用單網卡連接相同的交換機進行通信，測試效果。在未測試前，hive1/2節點存在”Broken Pipe”問題，而hive3/4節點不存在這個問題。

首先，測試hive1/2/3/4節點與A交換機斷開之後的效果，即

此時，hive1/2/3/4節點僅通過一個網卡與交換機B通信，在這種狀態運行一個小時,統計結果：hive1/2仍存在”Broken Pipe”異常，在這一小時內，單節點數量達到15000個，而此前5個小時內該數量最大在單節點每小時5000個，不排除在這一小時內作業突然增多情況，hive3/4仍沒有異常，所有節點都沒有出現其他異常。

測試hive1/2/3/4節點與B交換機斷開之後的效果，即

此時，hive1/2/3/4節點僅通過一個網卡與交換機A通信，在這種狀態運行一個小時,統計結果：hive1/2仍存在”Broken Pipe”異常，在這一小時內，單節點數量為7000個，hive3/4仍然沒有”Broken Pipe”異常，從更換網卡之後，所有節點均出現了新的異常：EOFexception，每個節點都保持在每分鐘有多條該報警記錄。

在做如上兩個測試的過程當中，平臺組件均沒有重啟。

該測試總結：根據cdh平臺的要求，一個萬兆網卡即可滿足平臺需求，理論上bond的網卡在始終保持有一個網卡處於可用狀態的時候，應用層不應當感受到網卡切換的變化，即在更換網卡之後應用不應當出現新的錯誤和原異常顯著增多的情況，所以這更傾向於網絡或者OS底層問題。

4. 在ifconfig中網卡出現dropped的原因：網卡已經接受到數據包，在從網卡緩存傳輸到系統內存中時發生丟失；DELL廠商建議增大網卡緩存大小，增加到2048，在終端執行該操作後重啟網卡，異常仍然沒有消失。

5. 解除所有節點的bond網卡，所有數據節點都使用單網卡模式，取消網卡之後重啟網卡，觀察一段時間，發現報錯仍然沒有消失，報錯的仍然是hive1/2，hive3/4正常。

6. Hive集群中報錯的兩個節點為hive1/2，不報錯的為hive3/4，而hive1/2上組件角色要比hive3/4多，測試是否是因為服務多負載重引起該異常，將hive2上的NameNode,Hiveserver2,HiveMetastore,ResourceManager轉移到hive4節點上，觀察報錯情況，沒有變化，報錯的仍然是hive1/2，hive3/4仍為正常，證明與負載無關。

4.故障分析階段（系統層面）

1. 在排查過程中，發現報錯的hive01,hive02以及hbase集群的四個節點系統語

言皆為中文，但未報錯的hive03則hive04則都為英文：

2. 使用rpm -qa命令查看hive集群四個節點所安裝的rpm包信息，對比之後發

現hive03與hive04所安裝的RPM包完全一致，而hive01與hive02除了hive03上有的rpm之外，還有很多其他的RPM包，在安裝平臺時系統環境其實並不一致，推測是由系統環境不一致引起的異常，在安裝集群之前，節點系統的環境相對已不純淨，可能是由於某些第三方依賴包引起了網絡不穩定。計劃依次採取如下方案繼續測試：

更改語言環境
更換網卡及光纖通信線
逐臺節點下線重裝系統

3. 在更換了hive01與hive02的系統語言環境為英文，並重啟了節點之後,”Broken Pipe”異常未再出現。Hbase集群採取同樣的操作後，該異常也未再出現。

5.總結

1. 該異常的處理辦法是將系統語言改為英文；

2. CDH無系統語言必須為英文的要求，推測可能的原因一方面是否安裝的中文字符集有問題或者該字符集與CentOS6.8兼容性並不好；另一方面，從各個節點上安裝的依賴包來看，還安裝了很多第三方的依賴包，是否存在部分依賴包在中文環境下會導致網絡不穩定的情況。

分享到:

閱讀更多 Hadoop實操 的文章

關鍵字: Cloudera 安裝 HBase

Delta Lake 修改分區表的表結構

Spark-local本地環境搭建

總算知道HDFS文件塊為什麼是128M了

對HDFS組成架構通俗易懂的理解

MapReduce運行原理及源碼解讀

HDFS讀寫流程，HDFS文件是怎樣上傳及下載的呢

HDFS Datanode裡的元數據

HDFS Namenode裡的元數據

第十三章 HDFS 2.x新特性

第十二章 HDFS 各種角色講解

第十一章 HDFS 的讀寫詳解

第十章 HDFS 深入理解

第九課 HDFS API 的使用

第七章 Hadoop 常用的 shell 命令

第六章 HDFS 基礎

HDFS 小文件治理

HDFS DataNode工作機制和數據存儲

HDFS NN和SNN功能剖析

hdfs讀取流程

hdfs寫入流程解析

01.23 大規模集群，HDFS 如何從 2.7 滾動升級到 3.2

字節跳動 EB 級 HDFS 實踐

12.31 字節跳動 EB 級 HDFS 實踐

11.22 Apache Kafka和Apache NiFi集成

HBase NotServingRegionException排查

HBase最佳實踐

詳解Rsync和FastDFS的區別與聯繫

zookeeper ACL 權限控制

09.17 HDFS進階詳解

Hadoop 基本 Shell命令

CarbonData 列式存儲文件結構

Spark任務優化-checkpoint使用

HDFS 搭建「hadoop核心」

好程式設計師：Datanode的工作機制

CentOS常用管理命令（二）：文件與目錄的操作

hive外部表的刪除表和刪除數據操作

Alluxio 常用shell命令總結

ZooKeeper在HBase中的應用

如何向Spark個節點共享靜態文件和jar包

04.13 架構師基本操作Kafka消息投遞語義-不丟不重

hdfs一些機制的簡介

「大數據篇」實時日誌抽取-Flume基礎篇

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"