阿里技術架構負責人內部總結：HDFS監控落地的思考

2019-11-07 14:53:57 IT技術管理那些事兒

Hadoop分佈式文件系統(HDFS)被設計成適合運行在通用硬件(commodity hardware)上的分佈式文件系統。

HDFS能提供高吞吐量的數據訪問，非常適合大規模數據集上的應用。在大數據生態圈中，HDFS是最重要的底層分佈式文件系統，它的穩定性關乎整個生態系統的健康。

本文介紹了HDFS相關的重要監控指標，分享指標背後的思考。

一、HDFS監控挑戰

HDFS是Hadoop生態的一部分，監控方案不僅需適用HDFS，其他組件如Yarn、Hbase、Hive等，也需適用
HDFS API提供的指標較多，部分指標沒必要實時採集，但故障時需能快速獲取到
Hadoop相關組件的日誌，比較重要，如問題定位、審計等
監控方案不僅能滿足監控本身，故障定位涉及指標也應覆蓋

二、Hadoop監控方案

Hadoop監控數據採集是通過HTTP API，或者JMX。實際中，用到比較多的產品主要有：CDH、Ambari，此外，還有部分工具，如Jmxtrans、HadoopExporter（用於Prometheus）。

CDH是一款開源的集部署、監控、操作等於一體的Hadoop生態組件管理工具，也提供收費版（比免費版多提供數據備份恢復、故障定位等特性）。CDH提供的HDFS監控界面在體驗上是非常優秀的，是對HDFS監控指標深入發掘之後的濃縮，比如HDFS容量、讀寫流量及耗時、Datanode磁盤刷新耗時等。

CDH提供的HDFS監控界面

Ambari與CDH類似，同樣是開源工具，但它的擴展性要比較好，另外，它的信息可以從機器、組件、集群等不同維度展現，接近運維工程師使用習慣。

Ambari提供的HDFS監控界面

如果使用CDH，或者Ambari進行HDFS監控，也存在實際問題：

對應的Hadoop及相關組件版本不能自定義
不能很好的滿足大規模HDFS集群實際監控需求

其他工具，如Jmxtrans目前還不能很好適配Hadoop，因此，實際的監控方案選型為：

採集：HadoopExporter，Hadoop HTTP API（說明：HDFS主要調用http://{domain}:{port}/jmx）
日誌：通過ELK來收集、分析
存儲：Prometheus
展現：Grafana，HDFS UI，Hue
告警：對接京東雲告警系統

三、HDFS監控指標

1、主要指標概覽

HDFS主要監控指標概覽

2、黑盒監控指標

基本功能

文件整個生命週期中，是否存在功能異常，主要監控創建、查看、修改、刪除動作。

查看時，需校對內容，有一種方式，可以在文件中寫入時間戳，查看時校對時間戳，這樣，可以根據時間差來判斷是否寫超時
切記保證生命週期完整，否則，大量監控產生的臨時文件可能導致HDFS集群垮掉

3、白盒監控指標

1）錯誤

Block丟失數量

採集項：MissingBlocks

如果出現塊丟失，則意味著文件已經損壞，所以需要在塊丟失前，提前預判可能出現Block丟失風險（通過監控UnderReplicatedBlocks來判斷）。

不可用數據節點佔比

採集項：

在BlockPlacementPolicyDefault.java中的isGoodTarget定義了選取Datanode節點策略，其中有兩項是“節點是否在下線”、“是否有足夠存儲空間”，如果不可用數量過多，則可能導致選擇不到健康的Datanode，因此，必須保證一定數量的健康Datanode。

選取可用Datanode時部分判斷條件

錯誤日誌關鍵字監控

部分常見錯誤監控（主要監控Exception/ERROR），對應關鍵字：

IOException、NoRouteToHostException、SafeModeException、UnknownHostException。

未複製Block數

採集項：UnderReplicatedBlocks

UnderReplicatedBlocks在數據節點下線、數據節點故障等均會產生大量正在同步的塊數。

FGC監控

採集項：FGC

讀寫成功率

採集項：

monitor_write.status/monitor_read.status

根據Block實際讀寫流量匯聚計算，是對外SLA指標的重要依據。

數據盤故障

採集項：NumFailedVolumes

如果一個集群有1000臺主機，每臺主機是12塊盤（一般存儲型機器標準配置），那麼這將會是1萬2000塊數據盤，按照機械盤平均季度故障率1.65%（數據存儲服務商Backblaze統計）計算，平均每個月故障7塊盤。若集群規模再擴大，那麼運維工程師將耗費很大精力在故障盤處理與服務恢復上。很顯然，一套自動化的數據盤故障檢測、自動報修、服務自動恢復機制成為剛需。

除故障盤監控外，故障數據盤要有全局性解決方案。在實踐中，以場景為維度，通過自助化的方式來實現對此問題處理。

基於場景實現的Jenkins自助化任務

2）流量

Block讀、寫次數

採集項：

採集Datanode數據進行匯聚計算。

網絡進出流量

採集項：node_network_receive_bytes_total/ node_network_transmit_bytes_total

沒有直接可以使用的現成數據，需要通過ReceivedBytes（接收字節總量）、SentBytes（發送字節總量）來計算。

磁盤I/O

採集項：node_disk_written_bytes_total/ node_disk_read_bytes_total

3）延遲

RPC處理平均時間

採集項：RpcQueueTimeAvgTime

採集RpcQueueTimeAvgTime（RPC處理平均時間）、SyncsAvgTime（Journalnode同步耗時）。

慢節點數量

採集項：SlowPeerReports

慢節點主要特徵是，落到該節點上的讀、寫較平均值差距較大，但給他足夠時間，仍然能返回正確結果。通常導致慢節點出現的原因除機器硬件、網絡外，對應節點上的負載較大是另一個主要原因。實際監控中，除監控節點上的讀寫耗時外，節點上的負載也需要重點監控。

根據實際需要，可以靈活調整Datanode彙報時間，或者開啟“陳舊節點”（Stale Node）檢測，以便Namenode準確識別故障實例。涉及部分配置項：

dfs.namenode.heartbeat.recheck-interval
dfs.heartbeat.interval
dfs.namenode.avoid.read.stale.datanode
dfs.namenode.avoid.write.stale.datanode
dfs.namenode.stale.datanode.interval

4）容量

集群總空間、空間使用率

採集項：PercentUsed

HDFS UI花費了很大篇幅來展現存儲空間相關指標，足以說明它的重要性。

空間使用率計算包含了處於“下線中”節點空間，這是一個陷阱。如果有節點處於下線狀態，但它們代表的空間仍計算在總空間，如果下線節點過多，存在這樣“怪象”：集群剩餘空間很多，但已無空間可寫。

此外，在Datanode空間規劃時，要預留一部分空間。HDFS預留空間有可能是其他程序使用，也有可能是文件刪除後，但一直被引用，如果“Non DFS Used”一直增大，則需要追查具體原因並優化，可以通過如下參數來設置預留空間：

dfs.datanode.du.reserved.calculator
dfs.datanode.du.reserved
dfs.datanode.du.reserved.pct

作為HDFS運維開發人員，需清楚此公式：Configured Capacity = Total Disk Space - Reserved Space = Remaining Space + DFS Used + Non DFS Used。

Namenode堆內存使用率

採集項：

HeapMemoryUsage.used/HeapMemoryUsage.committed

如果將此指標作為HDFS核心指標，也是不為過的。元數據和Block映射關係佔據了Namenode大部分堆內存，這也是HDFS不適合存儲大量小文件的原因之一。堆內存使用過大，可能會出現Namenode啟動慢，潛在FGC風險，因此，堆內存使用情況需重點監控。

實際中，堆內存使用率增加，不可避免，給出有效的幾個方案：

調整堆內存分配
建立文件生命週期管理機制，及時清理部分無用文件
小文件合併
使用HDFS Federation橫向擴展

儘管這些措施可以在很長時間內，有效降低風險，但提前規劃好集群也是很有必要。

數據均衡度

採集項：

HDFS而言，數據存儲均衡度，一定程度上決定了它的安全性。實際中，根據各存儲實例的空間使用率，來計算這組數據的標準差，用以反饋各實例之間的數據均衡程度。

數據較大情況下，如果進行數據均衡則會比較耗時，儘管通過調整併發度、速度也很難快速的完成數據均衡。針對這種情況，可以嘗試優先下線空間已耗盡的實例，之後再擴容的方式來實現均衡的目的。

還有一點需注意，在3.0版本之前，數據均衡只能是節點之間的均衡，不能實現節點內部不同數據盤的均衡。

RPC請求隊列的長度

採集項：CallQueueLength（RPC請求隊列長度）。

文件數量

採集項：FilesTotal

與堆內存使用率配合使用。每個文件系統對象（包括文件、目錄、Block數量）至少佔有150字節堆內存，根據此，可以粗略預估出一個Namenode可以保存多少文件。根據文件與塊數量之間的關係，也可以對塊大小做一定優化。

下線實例數

採集項：NumDecommissioningDataNodes

HDFS集群規模較大時，實時掌握健康實例說，定期修復故障節點並及時上線，可以為公司節省一定成本。

5）其他

除上述主要指標外，服務器、進程JVM、依賴服務（Zookeeper、DNS）等通用監控策略也需添加。

四、HDFS監控落地

Grafana儀表盤展現：主要用於服務巡檢、故障定位（說明：Grafana官方提供的HDFS監控模板，數據指標相對較少）。

HDFS部分集群Grafana儀表盤

ELK-Hadoop：主要用於全局日誌檢索，以及錯誤日誌關鍵字監控。

ES中搜索HDFS集群日誌

日誌服務搜索HDFS集群日誌

Hue、HDFS UI：主要用於HDFS問題排查與日常維護。

五、HDFS案例

案例1：

DNS產生髒數據，導致Namenode HA故障。

發現方式：功能監控、SLA指標異常
故障原因：DNS服務器產生髒數據，致使Namenode主機名出錯，在HA切換時，因找到錯誤主機而失敗
優化建議：DNS作為最基礎服務，務必保證其數據正確與穩定，在一定規模情況下，切忌使用修改/etc/hosts方式來解決主機名問題，如果沒有高可用的內部DNS服務，建議使用DNSMasq來搭建一套DNS服務器

案例2：

機架分組不合理，導致HDFS無法寫入。

發現方式：功能監控寫異常偶發性告警
故障原因：HDFS開啟機架感知，不同分組機器資源分配不合理，部分分組存儲資源耗盡，在選擇Datanode時，找不到可用節點
優化建議：合理分配各機架上的實例數量，並分組進行監控。在規模較小情況下，可用考慮關閉機架感知功能

分享到:

閱讀更多 IT技術管理那些事兒 的文章

關鍵字: HBase Hive 設計

Delta Lake 修改分區表的表結構

Spark-local本地環境搭建

總算知道HDFS文件塊為什麼是128M了

對HDFS組成架構通俗易懂的理解

MapReduce運行原理及源碼解讀

HDFS讀寫流程，HDFS文件是怎樣上傳及下載的呢

HDFS Datanode裡的元數據

HDFS Namenode裡的元數據

第十三章 HDFS 2.x新特性

第十二章 HDFS 各種角色講解

第十一章 HDFS 的讀寫詳解

第十章 HDFS 深入理解

第九課 HDFS API 的使用

第七章 Hadoop 常用的 shell 命令

第六章 HDFS 基礎

HDFS 小文件治理

HDFS DataNode工作機制和數據存儲

HDFS NN和SNN功能剖析

hdfs讀取流程

hdfs寫入流程解析

01.23 大規模集群，HDFS 如何從 2.7 滾動升級到 3.2

字節跳動 EB 級 HDFS 實踐

12.31 字節跳動 EB 級 HDFS 實踐

11.22 Apache Kafka和Apache NiFi集成

HBase NotServingRegionException排查

HBase最佳實踐

詳解Rsync和FastDFS的區別與聯繫

zookeeper ACL 權限控制

09.17 HDFS進階詳解

Hadoop 基本 Shell命令

CarbonData 列式存儲文件結構

Spark任務優化-checkpoint使用

HDFS 搭建「hadoop核心」

好程式設計師：Datanode的工作機制

CentOS常用管理命令（二）：文件與目錄的操作

hive外部表的刪除表和刪除數據操作

Alluxio 常用shell命令總結

ZooKeeper在HBase中的應用

如何向Spark個節點共享靜態文件和jar包

04.13 架構師基本操作Kafka消息投遞語義-不丟不重

hdfs一些機制的簡介

「大數據篇」實時日誌抽取-Flume基礎篇

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"

阿里技術架構負責人內部總結：HDFS監控落地的思考

一、HDFS監控挑戰

二、Hadoop監控方案

三、HDFS監控指標

四、HDFS監控落地

五、HDFS案例

相關文章:

Delta Lake 修改分區表的表結構

Spark-local本地環境搭建

總算知道HDFS文件塊為什麼是128M了

對HDFS組成架構通俗易懂的理解

MapReduce運行原理及源碼解讀

HDFS讀寫流程，HDFS文件是怎樣上傳及下載的呢

HDFS Datanode裡的元數據

HDFS Namenode裡的元數據

第十三章 HDFS 2.x新特性

第十二章 HDFS 各種角色講解

第十一章 HDFS 的讀寫詳解

第十章 HDFS 深入理解

第九課 HDFS API 的使用

第七章 Hadoop 常用的 shell 命令

第六章 HDFS 基礎

HDFS 小文件治理

HDFS DataNode工作機制和數據存儲

HDFS NN和SNN功能剖析

hdfs讀取流程

hdfs寫入流程解析

01.23 大規模集群，HDFS 如何從 2.7 滾動升級到 3.2

字節跳動 EB 級 HDFS 實踐

12.31 字節跳動 EB 級 HDFS 實踐

11.22 Apache Kafka和Apache NiFi集成

HBase NotServingRegionException排查

HBase最佳實踐

詳解Rsync和FastDFS的區別與聯繫

zookeeper ACL 權限控制

09.17 HDFS進階詳解

Hadoop 基本 Shell命令

CarbonData 列式存儲文件結構

Spark任務優化-checkpoint使用

HDFS 搭建「hadoop核心」

好程式設計師：Datanode的工作機制

CentOS常用管理命令（二）：文件與目錄的操作

hive外部表的刪除表和刪除數據操作

Alluxio 常用shell命令總結

ZooKeeper在HBase中的應用

如何向Spark個節點共享靜態文件和jar包

04.13 架構師基本操作Kafka消息投遞語義-不丟不重

hdfs一些機制的簡介

「大數據篇」實時日誌抽取-Flume基礎篇

第二章 IoC容器和Bean配置

運算裡不得不說的python模塊—math

Devops度量--DevOps 現狀快速檢查表

SOP是什麼（解讀）

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

DNS偵查工具

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

（必收藏系列）Linux面試題——命令集

五分鐘學會如何在 IPFS 上部署網站

「正點原子NANO STM32F103開發板資料連載」第29章 內存管理實驗

小白怎麼學Web前端開發 如何成為技術達人

如何開發一個web靜態服務器

學Java編程還有前景嗎 如何才能拿到高薪

Python網絡爬蟲之配置篇（一）

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

Python的運行效率太低？幾行代碼快速提升！

python的優點是什麼？最新Python400集視頻（附教程）

MySQL中OOM故障應如何下手-愛可生

像專家一樣使用 panic

30種不同的編程語言怎麼寫“Hello, World”

percona QAN 介紹

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

網絡工程師職業生涯中，哪兩點是最重要的？

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

小白怎麼學Web前端開發如何成為技術達人

學Java編程還有前景嗎如何才能拿到高薪