基於InfluxDB+Grafana打造大數據監控利器

這是一個大數據爆發的時代。面對信息的激流、多元化數據的湧現,我們在獲取、存儲、傳輸、理解、分析、應用、維護大數據時,無疑需要一種便捷的信息交流通道,以便快速、有效、準確地理解和駕馭這個過程。本文將通過時序數據庫(InfluxDB)+Grafana的實踐,來介紹如何將數據便捷地展現出來。

一、InfluxDB

開源的分佈式時序、時間和指標數據庫,使用Go語言編寫,無需外部依賴。其中,時間序列數據庫是數據格式裡包含Timestamp字段的數據,比如某一時間用戶上網流量、通話詳單等。但是,有什麼數據不包含Timestamp呢?幾乎所有的數據都可以打上一個Timestamp字段。時間序列數據更重要的一個屬性是如何去查詢它,包括數據的過濾、計算等。

它有三大特性:

  • 時序性(Time Series):與時間相關的函數的靈活使用(例如最大、最小、求和等);

  • 度量(Metrics):對實時大量數據進行計算;

  • 事件(Event):支持任意的事件數據,換句話說,任意事件的數據我們都可以做操作。

個人認為InfluxDB的幾個優點:

  • 無特殊依賴,幾乎開箱即用(如ElasticSearch需要Java)

  • 自帶數據過期功能;

  • 自帶權限管理,精細到“表”級別;

  • 原生的HTTP支持,內置HTTP API

  • 強大的類SQL語法,支持min, max, sum, count, mean, median 等一系列函數,方便統計。

  • 自帶管理界面(如下圖),免插件配置。

基於InfluxDB+Grafana打造大數據監控利器

InfluxDB基本概念

1、與傳統數據庫中的名詞做比較

基於InfluxDB+Grafana打造大數據監控利器

2、InfluxDB中特有的概念

1)Point

Point由時間戳(time)、數據(field)、標籤(tags)組成。

Point相當於傳統數據庫裡的一行數據,如下表所示:

基於InfluxDB+Grafana打造大數據監控利器

2)series

所有在數據庫中的數據,都需要通過圖表來展示,而這個series表示這個表裡面的數據,可以在圖表上畫成幾條線:通過tags排列組合算出來。

如下所示:

基於InfluxDB+Grafana打造大數據監控利器

3、InfluxDB相關API

InfluxDB 支持http api 方式寫入數據。使用curl這個工具來模擬HTTP 請求,在實際使用中,可以將請求寫入代碼中,通過其他編程語言來模擬HTTP請求。

例如:通過HTTP API向Internet_users這張表添加數據

curl -v –XPOST “http:// localhost:8086/write?db=Internet&u=user&p=password” –data-binary “Internet_users,users=小區上網用戶,mobile=移動端上網用戶,users_num=56,

mobile_num=21 1493571600000000000”

基於InfluxDB+Grafana打造大數據監控利器

說明:

  • db=Interne是指使用Interne數據庫;

  • –data-binary後面是需插入數據,其中:

  1. Internet_users:表名(measurement)

  2. tag字段:users和mobile,值分別為:小區上網用和移動端上網用戶

  3. field key字段:users_num和mobile_num,值分別為56和21

  4. 時間戳(timestamp):1493571600000000000

這樣,就向Interne數據庫的Internet_users表中插入了一條數據。

需要注意,DB參數必須指定一個數據庫中已經存在的數據庫名,數據體的格式遵從InfluxDB規定格式,首先是表名,後面是tags,然後是field,最後是時間戳。tags、field和時間戳三者之間以空格相分隔。

InfluxDB 數據可視化工具

InfluxDB 用於存儲基於時間的數據,比如監控數據,因為InfluxDB本身提供了Http API,所以可以使用InfluxDB很方便的搭建了個監控數據存儲中心。對於InfluxDB中的數據展示,這裡不得不提數據展示利器-Grafana。

二、Grafana

一個純粹的HTML/JS應用,其功能非常強大,訪問InfluxDB時不會有跨域訪問的限制。只要配置好數據源為InfluxDB之後就可以,剩下的工作就是配置圖表。配置數據源:基於InfluxDB+Grafana打造大數據監控利器

基於InfluxDB+Grafana打造大數據監控利器

設置查詢條件:

基於InfluxDB+Grafana打造大數據監控利器

展示數據:

基於InfluxDB+Grafana打造大數據監控利器

Grafana告警功能

沒有比”可視化“更好的一個詞能來概括運維的本質,我想Grafana也是深知廣大運維人員的痛處:如何用可視化數據說話? 所以Grafana在 4.0以後版本:新增報警功能(Alerting),根據官網介紹,Grafana報警方式也有很多種,常見的Email、Slack即時通訊、webhook等。

下圖為目前集群Grafana監控界面,主要包含對集群主機CPU、內存配合Grafana的閾值預警功能:

主機內存和CPU使用率監控:

基於InfluxDB+Grafana打造大數據監控利器

通過規則配置,可配置相關監控規則,包含相關邏輯與時間跨度以及監控告警條件。目前,僅支持一種條件類型—— Query 。可以指定Query字母,時間跨度和聚合函數。字母指定你在Metrics tab裡設置的聚合函數。Query的結果和聚合函數將會是一個單一的值,用於後面判斷是否超過了閾值。

規則配置完成後可在報警列表裡統一查看報表狀態:

三、實踐案例

1、數據採集規劃

目前採集數據主要來源於Hadoop的jmx監控,獲取相關Cluster、Queue等Metrics信息以及部分Oracle日誌信息,通過相關接口寫入InfluxDB數據庫,根據來源及日誌信息從數據庫層進行獨立管理設計,以便後續維護。

2、InfluxDB數據庫權限配置

InfluxDB自帶權限控制,權限分別為:

  • ADMIN:所有者

  • READ :只讀 (精確到庫與表)

  • WRITE:只寫 (精確到庫與表)

  • ALL (READ 和 WRITE ) :讀和寫

鑑於源數據流,目前只會用到三個角色,對於這三個角色分工如下:

  • ADMIN:維護人員

  • READ:數據展示與後臺查詢(Grafana上設置的Influnxdb為只讀)

  • WRITE:外部程序(插入數據至Influnxdb)

配置數據庫權限需開啟相關認證,操作如下:

vi /etc/InfluxDB/InfluxDB.conf

把 [http] 標籤下的 auth-enabled 選項值改為 true

[http]

enabled = true

bind-address = “:8086”

auth-enabled = true

log-enabled = true

write-tracing = false

pprof-enabled = false

https-enabled = false

https-certificate = “/etc/ssl/InfluxDB.pem”

3、Influnxdb和Grafana高可用配置

本次實踐為了避免因主機通斷而導致Influnxdb和Grafana服務無法使用的情況,所以在部署應用時用了2臺虛擬機,2臺虛擬機安裝的服務如下:

基於InfluxDB+Grafana打造大數據監控利器

在系統層方面又做了如下設置:

  • 主機域名設置

將兩臺主機設置為主備模式,共用同一個域名http://xxx.xxx.com

基於InfluxDB+Grafana打造大數據監控利器

  • 負載均衡設置

負載均衡設置即VIP主用與容災端域名+端口與的Localhost-01~02主備節點域名+端口映射。大家都知道InfluxDB和Grafana端口如下圖展示:

基於InfluxDB+Grafana打造大數據監控利器

所以映射關係可設計成這樣:

  • VIP:主用ip、容災ip

  • VPORT:8083

  • 均衡算法:pi 32 rr

  • 健康檢查:tcp

  • 實例IP及端口:Localhost-01的ip 8083Localhost-02的ip 8083

其它端口均按此設置,負載均衡設置完成後,這裡不得不提Grafana配置,如果要做到可視化展示的高可用,那麼Grafana配置數據源就必須採用域名+端口的方式:

基於InfluxDB+Grafana打造大數據監控利器

至此數據安全設置完畢。

4、Grafana界面配置

完成以上環境配置,根據相關需求進行Grafana界面配置以及監控配置,具體操作可以參照官網操作教程,這裡不再贅述。

HDFS目錄配額監控:

基於InfluxDB+Grafana打造大數據監控利器

HDFS空間使用率監控:

基於InfluxDB+Grafana打造大數據監控利器


分享到:


相關文章: