利用 Prometheus 监控测试服务器集群实践详解

2020-03-18 10:41:50 測吧測試開發

公司有几台测试服务器（由于测试服务器本来性能和线上机器硬件就不一样，所以让运维老师去掉了测试服务器报警），测试团队自己使用 Prometheus 监控几台测试服务器，当出现故障的时候，把报警数据直接发送到企业微信中。

Prometheus 特点介绍

Prometheus（普罗米修斯）是一套开源的监控 & 报警 & 时间序列数据库的组合，起始是由 SoundCloud 公司开发的。随着发展，越来越多公司和组织接受采用 Prometheus，社区也十分活跃，他们便将它独立成开源项目，并且有公司来运作。Google SRE 的书内也曾提到跟他们 BorgMon 监控系统相似的实现是 Prometheus。现在最常见的 Kubernetes 容器管理系统中，通常会搭配 Prometheus 进行监控。

Prometheus 基本原理是通过 HTTP 协议周期性抓取被监控组件的状态，这样做的好处是任意组件只要提供 HTTP 接口就可以接入监控系统，不需要任何斯达克学院测试或者其他的集成过程。这样做非常适合虚拟化环境比如 VM 或者 Docker 。

Prometheus 应该是为数不多的适合 Docker、Mesos、Kubernetes 环境的监控系统之一。

输出被监控组件信息的 HTTP 接口被叫做 exporter 。目前互联网公司常用的组件大部分都有 exporter 可以直接使用，比如 Varnish、Haproxy、Nginx、MySQL、Linux 系统信息 (包括磁盘、内存、CPU、网络等等)，具体支持的源看：https://github.com/prometheus。

与其他监控系统相比，Prometheus 的主要特点是：

一个多维数据模型（时间序列由指标名称定义和设置键 / 值尺寸）。
非常高效的存储，平均一个采样数据占~3.5bytes 左右，320 万的时间序列，每 30 秒采样，保持 60 天，消耗磁盘大概 228G。
一种灵活的查询语言。
不依赖分布式存储，单个服务器节点。
时间集合通过 HTTP 上的 PULL 模型进行。
通过中间网关支持推送时间。
通过服务发现或静态配置发现目标。
多种模式的图形和仪表板支持。

Prometheus 架构概览

它的服务过程是这样的 Prometheus daemon 负责定时去目标上抓取 metrics(指标) 数据，每个抓取目标需要暴露一个 HTTP 服务的接口给它定时抓取。

Prometheus

支持通过配置文件、文本文件、zookeeper、Consul、DNS SRV lookup 等方式指定抓取目标。支持很多方式的图表可视化，例如十分精美的 Grafana，自带的 Promdash，以及自身提供的模版引擎等等，还提供 HTTP API 的查询方式，自定义所需要的输出。

Alertmanager

Alertmanager 是独立于 Prometheus 的一个组件，可以支持 Prometheus 的查询语句，提供十分灵活的报警方式。

PushGateway：这个组件是支持 Client 主动推送 metrics 到 PushGateway，而 Prometheus 只是定时去 Gateway 上抓取数据。

如果有使用过 statsd 的用户，则会觉得这十分相似，只是 statsd 是直接发送给服务器端，而 Prometheus 主要还是靠进程主动去抓取。

Prometheus 的数据模型

Prometheus 从根本上所有的存储都是按时间序列去实现的，相同的 metrics(指标名称) 和 label(一个或多个标签) 组成一条时间序列，不同的 label 表示不同的时间序列。为了支持一些查询，有时还会临时产生一些时间序列存储。

metrics name&label 指标名称和标签。

每条时间序列是由唯一的” 指标名称” 和一组” 标签（key=value）” 的形式组成。

指标名称：一般是给监测对像起一名字，例如 httprequeststotal 这样，它有一些命名规则，可以包字母数字 _ 之类的的。通常是以应用名称开头 _ 监测对像 _ 数值类型 _ 单位这样。例如：pushtotal、userloginmysqldurationseconds、appmemoryusage_bytes。

标签：就是对一条时间序列不同维度的识别了，例如一个 http 请求用的是 POST 还是 GET，它的 endpoint 是什么，这时候就要用标签去标记了。最终形成的标识便是这样了：httprequeststotal{method=”POST”,endpoint=”/api/tracks”}。

记住，针对 httprequeststotal 这个 metrics name 无论是增加标签还是删除标签都会形成一条新的时间序列。

查询语句就可以跟据上面标签的组合来查询聚合结果了。

如果以传统数据库的理解来看这条语句，则可以考虑 httprequeststotal 是表名，标签是字段，而 timestamp 是主键，还有一个 float64 字段是值了。（Prometheus 里面所有值都是按 float64 存储）。

prometheus 四种数据类型

Gauge

Gauge 常规数值，例如温度变化、内存使用变化。可变大，可变小。重启进程后，会被重置。例如：

memoryusagebytes{host=”master-01″} 100 < 抓取值、memoryusagebytes{host=”master-01″} 30、memoryusagebytes{host=”master-01″} 50、memoryusagebytes{host=”master-01″} 80 < 抓取值。

Histogram

Histogram（直方图）可以理解为柱状图的意思，常用于跟踪事件发生的规模，例如：请求耗时、响应大小。它特别之处是可以对记录的内容进行分组，提供 count 和 sum 全部值的功能。

例如：{小于 10=5 次，小于 20=1 次，小于 30=2 次}，count=7 次，sum=7 次的求和值。

Summary

Summary 和 Histogram 十分相似，常用于跟踪事件发生的规模，例如：请求耗时、响应大小。同样提供 count 和 sum 全部值的功能。

例如：count=7 次，sum=7 次的值求值。

它提供一个 quantiles 的功能，可以按 % 比划分跟踪的结果。例如：quantile 取值 0.95，表示取采样值里面的 95% 数据。

依赖镜像

<code>docker pull prom/node-exporter
docker pull prom/prometheus
docker pull grafana/grafana/<code>

部署 prometheus

配置

<code>mkdir /opt/prometheus
cd /opt/prometheus/
vim prometheus.yml/<code>

yml 内容

yml 中配置了一个 prometheus 自己和一台 linux 监控

<code>global:
  scrape_interval:     60s
  evaluation_interval: 60s

scrape_configs:
- job_name: prometheus
    static_configs:
- targets: ['localhost:9090']
        labels:
          instance: prometheus

- job_name: linux
    static_configs:
- targets: ['192.168.91.132:9100']
        labels:
          instance: localhost/<code>

启动 prometheus

启动的时候挂载了 prometheus.yml 文件

<code>docker run  -d \\
-p 9090:9090 \\
-v /Users/qamac/Documents/script/docker_prometheus/prometheus.yml:/etc/prometheus/prometheus.yml  \\
  prom/prometheus/<code>

查看目标机器

<code>http://192.168.143.242:9090/targets/<code>

如果出现 status 是 down 的情况说明没有连接成功 , 需要检查对应服务是否启动成功及对应端口

出现下图 , 说明配置成功。

查看采集 metrics

点击下面这个接口 , 会跳转到 metrics 页面 , 通过轮训的方式更新数据

<code>http://192.168.143.242:9090/metrics/<code>

部署 node-exporter

node-exporter 启动后会在服务器上启动一个进程采集数据 ,prometheus 会每隔几秒通过接口获取服务器的 metrics 数据 .

注意本地 mac 启动不能加--net="host"

<code>docker run -d -p 9100:9100 \\
-v "/proc:/host/proc:ro" \\ 

-v "/sys:/host/sys:ro" \\
-v "/:/rootfs:ro" \\
--net="host" \\
  prom/node-exporter/<code>

部署 Grafana

启动 grafana

<code>docker run -d -p 3000:3000 grafana/<code>

grafana 地址

登录账号密码:admin/admin

<code>http://192.168.143.242:3000/<code>

grafana 配置

prometheus 配置

配置 prometheus 数据源

grafana 模版

导入 dashboards 模版

<code>https://grafana.com/grafana/dashboards/8919/<code>

展示

配置多个机器监控 , 需要在每一台机器部署 node-exporter.

配置告警规则

报警规则配置

rules.yml 中配置监控服务的内存、cpu、磁盘告警策略

<code>Server: '{{$labels.instance}}'
    summary: "{{$labels.instance}}: High Memory usage detected"
    explain: " 内存使用量超过 90%，目前剩余量为：{{ $value }}M"
    description: "{{$labels.instance}}: Memory usage is above 90% (current value is: {{ $value }})"

- alert: CPU 报警
  expr: (100 - (avg by (instance)(irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100)) > 90
for: 2m
  labels:
    team: node
  annotations:
Alert_type: CPU 报警
Server: '{{$labels.instance}}'
    explain: "CPU 使用量超过 90%，目前剩余量为：{{ $value }}"
    summary: "{{$labels.instance}}: High CPU usage detected"
    description: "{{$labels.instance}}: CPU usage is above 90% (current value is: {{ $value }})"

- alert: 磁盘报警
  expr: 100.0 - 100 * ((node_filesystem_avail_bytes{mountpoint=~"/", device!="rootfs"} / 1000 / 1000 ) / (node_filesystem_size_bytes{mountpoint=~"/", device!="rootfs"} / 1024 / 1024)) > 90
for: 2m
  labels:
    team: node
  annotations:
Alert_type: 磁盘报警
Server: '{{$labels.instance}}'
    explain: " 磁盘使用量超过 90%，目前剩余量为：{{ $value }}G"
    summary: "{{$labels.instance}}: High Disk usage detected"
    description: "{{$labels.instance}}: Disk usage is above 90% (current value is: {{ $value }})"

- alert: 服务器下线告警 

    expr: up == 0
for: 1m
    labels:
      user: admin
    annotations:
      summary: "Instance {{ $labels.instance }} down"
      description: "{{ $labels.instance }} of job {{ $labels.job }} has been down for more than 1 minutes."/<code>

加载配置

prometheus.yml 加载 rule_files

<code># Alertmanager configuration
alerting:
   alertmanagers:
- static_configs:
- targets: ["192.168.1.232:9093"]
# - alertmanager:9093


# Load rules once and periodically evaluate them according to the global 'evaluation_interval'.
rule_files:
- "rules.yml"/<code>

启动 prometheus

<code>docker run -d -p 9090:9090 --name=prometheus1 \\
-v /Users/qamac/Documents/script/docker_prometheus/prometheus.yml:/etc/prometheus/prometheus.yml \\
-v /Users/qamac/Documents/script/docker_prometheus/memory_over.yml:/etc/prometheus/rules.yml \\
prom/prometheus/<code>

部署 alertmanager

邮箱配置

可以通过邮件的形式发送告警邮件

<code>global:
  smtp_smarthost: 'smtp.126.com:25'　　#163 服务器 

  smtp_from: '[email protected]'　　　　　　　　#发邮件的邮箱
  smtp_auth_username: '[email protected]'　　#发邮件的邮箱用户名，也就是你的邮箱
  smtp_auth_password: 'xxxxx'　　　　　　　　#发邮件的邮箱密码

route:
  group_by: ['alertname']

  repeat_interval: 1h

  receiver: live-monitoring

receivers:
- name: 'live-monitoring'
  email_configs:
- to: '[email protected]'　　　　　　　　#收邮件的邮箱/<code>

webhook 配置

因为我司用企业微信比较多，再加上平时也不怎么看邮件。所以想自定义一个 webhook 地址，把告警发到企业微信群中。

<code>global:
  resolve_timeout: 5m

route:
  group_by: ['alertname']
  group_wait: 10s
  group_interval: 10s
  repeat_interval: 1h
  receiver: 'web.hook'
receivers:
- name: 'web.hook'
  webhook_configs:
- url: 'http://127.0.0.1:5000/send'
inhibit_rules:
- source_match:
      severity: 'critical'
    target_match:
      severity: 'warning'
    equal: ['alertname', 'dev', 'instance'] 

~/<code>

启动 alertmanager

<code>docker run -d -p 9093:9093 -v /data/docker_alertmanager/simple.yml/:/etc/alertmanager/config.yml --name alertmanager1 prom/alertmanager/<code>

alertmanager 的 web 页面

<code>http://192.168.1.232:9093/#/status/<code>

下图是配置的告警方式

prometheus 中报警模块

<code>http://192.168.143.242:9090/alerts/<code>

访问上面的地址 , 可以看到已经加载了告警规则

报警的几个状态

Inactive: 既不是 pending 也不是 firing 的时候状态变为 inactive
Pending:警报被激活，但是低于配置的持续时间。这里的持续时间即 rule 里的 FOR 字段设置的时间 . 改状态下不发送报警 .
Firing: 警报已被激活，而且超出设置的持续时间。该状态下发送报警 .

如下图的 for 字段是配置 2 分钟循环 , 第一次触发规则是 Pending 状态 , 如果超过 2 分钟就变成了 Firing 状态 , 才发送告警

Webhook 服务

我们需要一个 webhook 服务接受报警的消息然后在发给企业微信群中 .

这里我使用 python flask 框架开发 web 服务 .

报警消息的格式

<code>{
"status": "firing",
"labels": {
"instance": "localhost",
"job": "linux",
"user": "admin",
"alertname": "NodeMemoryUsage"
},
"endsAt": "2020-01-06T08:38:59.334190464Z",
"generatorURL": "http://13b226ded726:9090/graph?g0.expr=%28node_memory_MemTotal_bytes+-+%28node_memory_MemFree_bytes+%2B+node_memory_Buffers_bytes+%2B+node_memory_Cached_bytes%29%29+%2F+node_memory_MemTotal_bytes+%2A+100+%3E+5&g0.tab=1",
"startsAt ": "2020-01-05T15:33:59.334190464Z",
"annotations": {
"description": "localhost: Memory usage is above 80% (current value is:22.168394749407362)",
"summary": "localhost: High Memory usage detected"
}
}/<code>

定义 send 接口

解析响应数据

Dockerfile

这里使用 docker 把服务打包成镜像部署

<code>FROM python3.7
RUN pip3 install requests && pip3 install flask && pip3 install logzero && pip3 install gunicorn && pip3 install flask_script
EXPOSE 5000

ENTRYPOINT ["/run.sh"]/<code>

以上，期待与各位同学多交流探讨。

分享到:

閱讀更多 測吧測試開發 的文章

關鍵字: 美好，一直在身边数据库 Docker

Prometheus(普罗米修斯)

前端笔记（nodejs文件读写、服务器，数据转型）

Java网络编程-文件上传案例-服务器

Kubernetes系列之kubernetes Prometheus Operator

Prometheus 与 nodata 告警

Prometheus + Grafana 监控 SpringBoot项目监控系统

如何使用 Prometheus 轻松实现集群监控？

Zabbix vs Prometheus 哪个好一些？

K8S的Kafka监控(Prometheus+Grafana)

03.08 K8S的Kafka监控(Prometheus+Grafana)

Qt编写的项目作品21-网络请求客户端/服务器

03.04 使用CortexAPI 实现Cortex的基本操作

使用 Cortex 实现 Prometheus 的多租户管理

实践指路明灯，源码剖析flink-metrics

如何为深度学习选择 GPU 服务器？

prometheus+grafana+alertmanger

Prometheus——内存数据库指标的监控

Prometheus——DNS服务器实时监控的利器

11.21 打造炫丽的Linux服务器监控平台——Grafana + Prometheus

Kubernetes 持久化安装 Prometheus

Prometheus Operator 安装及监控k8s

Prometheus 原理介绍

Prometheus+Consul服务自动发现监控

RHEL8 中配置 Rsyslog 服务器

Prometheus+Grafana监控系统安装实记

分享一款开源的监控神器--Prometheus 简介、架构及相关概念

09.19 无监控不运维——Prometheus 快速入门

「Prometheus系列」实战—Prometheus + Grafana——Nginx 监控

Spring Boot 2监控数据可视化(Prometheus + Grafana手把手图文)

十分钟搭建私有 Jupyter Notebook 服务器

Prometheus 监控 RabbitMQ

k8s中通过consul实现prometheus联邦功能

自己做个局域网的服务器将任何一台PC 设置成一个FTP 服务器

Prometheus vs. Graphite：时序数据监控工具选择

「服务器」Centos和UBUNTU之争

搭建属于你自己的 Git 服务器

什么是 Linux 服务器，你的业务为什么需要它？

无密码验证：服务器

06.15 无密码验证：服务器

Linux中samba 服务器修改配置文件

服务器“分布式”与“集群”的区别是什么？

可用于企业的 7 个最佳开源 Web 服务器

【服务器】深入理解Java虚拟机

[信息安全] 服务器、网站被攻击了怎么办？

「翼网科技」DELL R720 服务器 RAID阵列卡配置图解

技术漫谈｜快速上手更简单的 Web 服务器——Caddy

第二章 IoC容器和Bean配置

bean是一个对象，它是由Spring

运算里不得不说的python模块—math

Help

Devops度量--DevOps 现状快速检查表

今天主要分享一个DevOps

SOP是什么（解读）

SOP不是单个的，是一个体系，虽然我们可以单独地定义每一个SOP，但真正从企业管理来看，SOP不可能只是单个的，必然是一个整体和体系，也是企业不可或缺的。

还不知道交换机上如何配置DHCP，赶紧过来围观吧，一分钟包你学会

随着终端设备的越来越多，人工干预配置IP地址，不仅工作效率低，而且，还很容易导致IP冲突，影响正常的网络访问。到此已经完成了，DHCP服务的配置了，我们可以在终端验证。

还在手动配置IP地址吗？太Low了，一分钟教会您如何配置DHCP

Python爬虫自学笔记：分析头条文章网页源文件

这两天分析了一下头条文章网页的源文件，现在将分析的结果分享给大家。首先以一篇文章为例，其网址如下：https://www.toutiao.com/i6822245428176617998/如上图网页所示，文章中包含文字和图片。

DNS侦查工具

我们只需要打开浏览器输入例如:www.baidu.com就可以解析到该网站.为了便于记住不需要输入长长的IP地址去访问这就是DNS域名解析.关于域名域名的层次划分用点来分割这时DNS把相对应的域名解析成IP地址高的在右边.例如:www. NS简介访问某网站的时候最低在左边

国人开源的异步 Python ORM：GINO

程序测评：Create React App 3.3中有哪些酷炫新功能？

Create

“明学”的魅力？我只要我觉得：驾驭终端，提高生产力

最后一个要介绍的命令是

（必收藏系列）Linux面试题——命令集

关注，后台私信【Linux】分享Linux入门到进阶电子书、Linux入门到精通视频教程（免费）。文件管理命令cat

五分钟学会如何在 IPFS 上部署网站

原文标题:五分钟学会如何在

「正点原子NANO STM32F103开发板资料连载」第29章内存管理实验

1）实验平台：【正点原子】

小白怎么学Web前端开发如何成为技术达人

Web前端开发工程师已经成为了很多年轻人心中的理想工作，不仅入行门槛低、而且薪资待遇和发展前景都不错，自然吸引了大批人加入行业。

如何开发一个web静态服务器

我们都知道如今的web服务器有很多，比如著名的有apache，有nginx，有tomcat，有resin服务器，有sphere，有iis服务器等等，这些服务器都能提供web服务，并且几乎都能和多种语言进行搭配使用，那么一个web服务器都需要那些功能，开发一个web服务器都需要那些

学Java编程还有前景吗如何才能拿到高薪

需求大、薪资高似乎是Java开发人员的标签，不过学Java编程还有前景吗？它架构在操作系统之上，屏蔽了底层的差异，真正实现了“Writeonce run

Python网络爬虫之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例实现前后分离权限注解+JWT登录认证

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的运行效率太低？几行代码快速提升！

return的就是是你所需要的结果2.3、运行这一步就是最后一步了，只要像下面一样输入上述函数名，赋予参数值，点击运行Run，就能得到你想要的结果arg1=5

python的优点是什么？最新Python400集视频（附教程）

2020，最新Python零基础到精通资料教材，干货分享，新基础Python教材，稳稳找到过万工作，看这里，这里有你想要的所有资源哦，最强笔记，教你怎么入门提升！获取方式：私信小编“

MySQL中OOM故障应如何下手-爱可生

作者：孙祚龙爱可生南区分公司交付服务部成员，实习工程师。负责公司产品问题排查及日常运维工作。本文来源：原创投稿*爱可生开源社区出品，原创内容未经授权不得随意使用，转载请联系小编并注明来源。

像专家一样使用 panic

|go

30种不同的编程语言怎么写“Hello, World”

printfn

percona QAN 介绍

一、背景QAN慢查询日志分析工具是PMM

面试官：你可以用纯CSS判断鼠标进入的方向吗？

虽然没什么软用，但是对付面试官应该是够用了。感谢面试官提出的问题，让我实现了这个功能，对CSS

网络工程师职业生涯中，哪两点是最重要的？

网络工程师最重要的技能是扎实的基础和非常开放的思维，微观知识扎实、宏观能力突出。项目经验也会让网络工程师基础更牢靠，网络工程师是要实战的，要避免纸上谈兵，我认为对基础理论的理解，比你清楚配置更重要。

交换机中相关术语代表什么意思，有必要弄清楚

由浅入深了解以太坊 2.0：最常见问题和最全学习清单

有关以太坊2.0

【Linux简单实用小命令001】CentOS 7、8的防火墙端口开放

yuminstall

吃透这些IPFS硬核知识点，日后抢头矿随时“弯道超车”

今天的你捉住IPFS机遇了吗？我们都知道在Filecoin网络中作为一名存储矿工，信誉对于我们是非常重要的——信誉越高，爆块几率越大。那么信誉系统现在怎么样了呢？

Hive分桶表

fieldsterminated

Spring中资源的加载原来是这么一回事啊！

自己动手搭建邮件系统：怎样让Exchange Server 发出第一封邮件？

编辑Exchange

$【MySQL】RDS物理备份文件(.idb\.frm)恢复到MySQL自建数据库$

【MySQL】RDS物理备份文件(.idb\.frm)恢复到MySQL自建数据库

在阿里云控制台，我们能下载的文件是一个压缩包，解压之后，是.idb和.frm文件，你可能要问了，我可以直接把解压好的问题件覆盖到MySQL的data目录下吗？

NLP算法入门系列：隐含马尔可夫链(HMM)模型的简单介绍

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度学习这样实现人脸的年龄检测

前期的文章我们分享了人脸的识别以及如何进行人脸数据的训练，本期文章我们结合人脸识别的模型进行人脸年龄的检测人脸年龄的检测步骤1、首先需要进行人脸的检测2、把检测到的人脸数据给年龄检测模型去检测3、把检测结果呈现到图片上人脸年龄检测import

嵌入式linux网络编程之——5年程序员给你深度讲解socket套接字

图8-1

深入了解ProcessFunction的状态操作(Flink-1.10)

先反思为何会有上述疑惑上述疑惑产生的原因，应该是受到平时使用HashMap的影响，HashMap获取值就是在调用get方法时指定key，设置值也是在put时指定key，所以看到state.value，看懂了这些，其实也是在了解DataStream/DataSetAPI的设计思路：

Redis内存分析工具--rdr安装与使用

分析Redis

资深架构师教你源码讲解zookeeper实现分布式锁以及集群搭建步骤

//getData发现前一个子节点被删除，抛出异常

一行代码提升迁移性能

论文原址：https://arxiv.org/pdf/2003.12237.pdf开源地址：https://github.com/cuishuhao/BNM在发表在CVPR2020

利用相似几何信息，做可泛化3D形状分割模型

更具体的有以下三种典型的分割方案：FullyConvolutional-Like

这么好用的开源计算器SpeedCrunch，没有不尝试一下的道理

介绍SpeedCrunch是一款高精度科学计算器，具有快速，键盘驱动的用户界面。获取方式在GitHub上搜索SpeedCrunch，就可以去到

分布式缓存，真香

他是前易宝支付架构师、阿里云MVP、腾讯云

特征工程的力量

在本文中，我希望教给您一些有关特征工程的知识，以及如何使用它来对非线性决策边界进行建模。为了说明这一点，假设恢复时间与身高和体重具有以下关系：Y=β₀+β₁+β2+β₃+noise从第三项来看，我们可以看到Y与身高和体重没有线性关系。

java架构：天天写面向接口编程，你考虑过性能吗？大神都是这么写

public

SpringBoot如何优雅的使用RocketMQ

源码编译需要Maven3.2x，JDK8在根目录进行打包:Copymvn-Prelease-all

css代码规范工具stylelint

"mixin"

利用 Prometheus 监控测试服务器集群实践详解

Prometheus 特点介绍

Prometheus 架构概览

Prometheus

Alertmanager

Prometheus 的数据模型

prometheus 四种数据类型

Gauge

Histogram

Summary

依赖镜像

部署 prometheus

配置

yml 内容

启动 prometheus

查看目标机器

查看采集 metrics

部署 node-exporter

部署 Grafana

启动 grafana

grafana 地址

grafana 配置

prometheus 配置

grafana 模版

展示

配置告警规则

报警规则配置

加载配置

启动 prometheus

部署 alertmanager

邮箱配置

webhook 配置

启动 alertmanager

alertmanager 的 web 页面

prometheus 中报警模块

报警的几个状态

Webhook 服务

定义 send 接口

解析响应数据

Dockerfile

相關文章:

Prometheus(普罗米修斯)

前端笔记（nodejs文件读写、服务器，数据转型）

Java网络编程-文件上传案例-服务器

Kubernetes系列之kubernetes Prometheus Operator

Prometheus 与 nodata 告警

Prometheus + Grafana 监控 SpringBoot项目监控系统

如何使用 Prometheus 轻松实现集群监控？

Zabbix vs Prometheus 哪个好一些？

K8S的Kafka监控(Prometheus+Grafana)

03.08 K8S的Kafka监控(Prometheus+Grafana)

Qt编写的项目作品21-网络请求客户端/服务器

03.04 使用CortexAPI 实现Cortex的基本操作

使用 Cortex 实现 Prometheus 的多租户管理

实践指路明灯，源码剖析flink-metrics

如何为深度学习选择 GPU 服务器？

prometheus+grafana+alertmanger

Prometheus——内存数据库指标的监控

Prometheus——DNS服务器实时监控的利器

11.21 打造炫丽的Linux服务器监控平台——Grafana + Prometheus

Kubernetes 持久化安装 Prometheus

Prometheus Operator 安装及监控k8s

Prometheus 原理介绍

Prometheus+Consul服务自动发现监控

RHEL8 中配置 Rsyslog 服务器

Prometheus+Grafana监控系统安装实记

分享一款开源的监控神器--Prometheus 简介、架构及相关概念

09.19 无监控不运维——Prometheus 快速入门

「Prometheus系列」实战—Prometheus + Grafana——Nginx 监控

Spring Boot 2监控数据可视化(Prometheus + Grafana手把手图文)

十分钟搭建私有 Jupyter Notebook 服务器

Prometheus 监控 RabbitMQ

k8s中通过consul实现prometheus联邦功能

自己做个局域网的服务器 将任何一台PC 设置成一个FTP 服务器

Prometheus vs. Graphite：时序数据监控工具选择

「服务器」Centos和UBUNTU之争

搭建属于你自己的 Git 服务器

什么是 Linux 服务器，你的业务为什么需要它？

无密码验证：服务器

06.15 无密码验证：服务器

自己做个局域网的服务器将任何一台PC 设置成一个FTP 服务器

Linux中samba 服务器修改配置文件

「正点原子NANO STM32F103开发板资料连载」第29章内存管理实验

小白怎么学Web前端开发如何成为技术达人

学Java编程还有前景吗如何才能拿到高薪