Prometheus Operator 安装及监控k8s_技术 _ 頭條網

摘选:https://i4t.com/4214.html

之前的文章介绍过传统方式安装Prometheus来监控集群，但是这种方式有一定的缺陷虽然完全可以用自定义方式来实现，但是不够灵活，不具有通用性。在自定义监控时还需要不断的更新Prometheus的配置。如果是kubernetes集群完全可以使用一种更原始的方式来实现kubernetes集群监控，即采用Prometheus Operator

Operator是由CoreOS公司开发的用来扩展Kubernetes API的特定应用程序控制器，用来创建、配置和管理复杂的有状态应用，例如Mysql、缓存和监控系统。目前CoreOS官方提供了几种Operator的代码实现，其中就包括Prometheus Operator

下图为Prometheus Operator 架构图

Operator作为一个核心的控制器，它会创建Prometheus、ServiceMonitor、alertmanager以及我们的prometheus-rule这四个资源对象，operator会一直监控并维持这四个资源对象的状态，其中创建Prometheus资源对象就是作为Prometheus Server进行监控，而ServiceMonitor就是我们用的exporter的各种抽象（exporter前面文章已经介绍了，就是提供我们各种服务的metrics的工具）Prometheus就是通过ServiceMonitor提供的metrics数据接口把我们数据pull过来的。现在我们监控prometheus不需要每个服务单独创建修改规则。通过直接管理Operator来进行集群的监控。这里还要说一下，一个ServiceMonitor可以通过我们的label标签去匹配集群内部的service，而我们的prometheus也可以通过label匹配多个ServiceMonitor

prometheus-operator.png-147.6kB

其中，Operator是核心部分，作为一个控制器而存在，Operator会创建Prometheus、ServiceMonitor、AlertManager及PrometheusRule这4个CRD资源对象，然后一直监控并维持这4个CRD资源对象的状态

Prometheus 资源对象是作为Prometheus Service存在的ServiceMonitor 资源对象是专门提供metrics数据接口的exporter的抽象，Prometheus就是通过ServiceMonitor提供的metrics数据接口去 pull 数据的AlerManager 资源对象是对应alertmanager组件PrometheusRule 资源对象是被Prometheus实例使用的告警规则文件

CRD简介
全称CustomResourceDefinition，在Kubernetes中一切都可视为资源，在Kubernetes1.7之后增加对CRD自定义资源二次开发能力开扩展Kubernetes API，当我们创建一个新的CRD时，Kubernetes API服务器将为你制定的每个版本创建一个新的RESTful资源路径，我们可以根据该API路径来创建一些我们自己定义的类型资源。CRD可以是命名空间，也可以是集群范围。由CRD的作用域scpoe字段中所制定的，与现有的内置对象一样，删除名称空间将删除该名称中的所有自定义对象

简单的来说CRD是对Kubernetes API的扩展，Kubernetes中的每个资源都是一个API对象的集合，例如yaml文件中定义spec那样，都是对Kubernetes中资源对象的定义，所有的自定义资源可以跟Kubernetes中内建的资源一样使用Kubectl

这样，在集群中监控数据，就变成Kubernetes直接去监控资源对象，Service和ServiceMonitor都是Kubernetes的资源对象，一个ServiceMonitor可以通过labelSelector匹配一类Service，Prometheus也可以通过labelSelector匹配多个ServiceMonitor，并且Prometheus和AlertManager都是自动感知监控告警配置的变化，不需要认为进行reload操作。

安装

前天我们也说了Operator是原生支持Prometheus的，可以通过服务发现来监控集群，并且是通用安装。也就是operator提供的yaml文件，基本上在Prometheus是可以直接使用的，需要改动的地方可能就只有几处

有点需要说明一下，前面我们手动安装了prometheus，在这里都需要删除，有一些服务会影响我们这里的资源对象创建，例如node-exporter

image_1dfbqvbe7cf1u461d3e9ghcni9.png-152.1kB

#首先我们下载operator
#我这里提供的yaml文件和下面的镜像版本是对应的，如果使用官网的请自行下载镜像
wget -P /root/ http://down.i4t.com/abcdocker-prometheus-operator.yaml.zip
unzip abcdocker-prometheus-operator.yaml.zip
cd /root/kube-prometheus-master/manifests

#官方下载 (使用官方下载的出现镜像版本不相同请自己找镜像版本)
wget -P /root/ https://github.com/coreos/kube-prometheus/archive/master.zip
unzip master.zip
cd /root/kube-prometheus-master/manifests

prometheus-serviceMonitorKubelet.yaml (这个文件是用来收集我们service的metrics数据的)

这里不进行修改

cat prometheus-serviceMonitorKubelet.yaml

apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:
labels:
k8s-app: kubelet
name: kubelet
namespace: monitoring
spec:

endpoints:
- bearerTokenFile: /var/run/secrets/kubernetes.io/serviceaccount/token
honorLabels: true
interval: 30s
port: https-metrics
scheme: https
tlsConfig:
insecureSkipVerify: true
- bearerTokenFile: /var/run/secrets/kubernetes.io/serviceaccount/token
honorLabels: true
interval: 30s
metricRelabelings:
- action: drop
regex: container_(network_tcp_usage_total|network_udp_usage_total|tasks_state|cpu_load_average_10s)
sourceLabels:
- __name__
path: /metrics/cadvisor
port: https-metrics
scheme: https
tlsConfig:
insecureSkipVerify: true
jobLabel: k8s-app
namespaceSelector: #匹配命名空间，这个代表的意思就是会去匹配kube-system命名空间下，具有k8s-app=kubelet的标签，会将匹配的标签纳入我们prometheus监控中
matchNames:
- kube-system
selector: #这三行是用来匹配我们的service
matchLabels:
k8s-app: kubelet

由于国内网络问题，有一些镜像无法直接下载。我这里提供了所有的镜像，只要导入进去即可

#我这里已经做了免密，直接拷贝镜像地址在所有的服务器上reload一下即可

wget -c http://down.i4t.com/abcdocker-prometheus-opertor.tar
#这里等待会慢些，一会就可以下载好了(遇到报错等等，如果不成功可以将url复制在浏览器在rz上去,总比Google拉不了镜像强)

for i in k8s-master1 k8s-master2 k8s-node1 k8s-node2;do
echo "----- $i -----"
scp abcdocker-prometheus-opertor.tar root@$i:/opt/
ssh root@$i "docker load -i /opt/abcdocker-prometheus-opertor.tar"
done

#这样集群所有节点都有镜像，不存在镜像拉取不到的错误（这里的yaml文件最好使用我的版本，否则后面yaml文件更新了，镜像还需要从新获取）这里有一个k8s.gcr.io/addon-resizer因为在Google上面被墙拦住了，所以大家还是乖乖的用我的镜像吧

这里修改完毕后，我们就可以直接创建配置文件

#需要在manifests目录下进行创建，我会将整个yaml打包，直接进入即可
[root@yzsjhl82-138 ~]# cd kube-prometheus-master/manifests/
[root@k8s-master1 manifests]# kubectl apply -f .
...
role.rbac.authorization.k8s.io/prometheus-k8s created
role.rbac.authorization.k8s.io/prometheus-k8s created
service/prometheus-k8s created
serviceaccount/prometheus-k8s created
unable to recognize "0prometheus-operator-serviceMonitor.yaml": no matches for kind "ServiceMonitor" in version "monitoring.coreos.com/v1"
unable to recognize "alertmanager-alertmanager.yaml": no matches for kind "Alertmanager" in version "monitoring.coreos.com/v1"
unable to recognize "alertmanager-serviceMonitor.yaml": no matches for kind "ServiceMonitor" in version "monitoring.coreos.com/v1"
unable to recognize "grafana-serviceMonitor.yaml": no matches for kind "ServiceMonitor" in version "monitoring.coreos.com/v1"
unable to recognize "kube-state-metrics-serviceMonitor.yaml": no matches for kind "ServiceMonitor" in version "monitoring.coreos.com/v1"
unable to recognize "node-exporter-serviceMonitor.yaml": no matches for kind "ServiceMonitor" in version "monitoring.coreos.com/v1"
unable to recognize "prometheus-prometheus.yaml": no matches for kind "Prometheus" in version "monitoring.coreos.com/v1"
unable to recognize "prometheus-rules.yaml": no matches for kind "PrometheusRule" in version "monitoring.coreos.com/v1"
unable to recognize "prometheus-serviceMonitor.yaml": no matches for kind "ServiceMonitor" in version "monitoring.coreos.com/v1"
unable to recognize "prometheus-serviceMonitorApiserver.yaml": no matches for kind "ServiceMonitor" in version "monitoring.coreos.com/v1"
unable to recognize "prometheus-serviceMonitorCoreDNS.yaml": no matches for kind "ServiceMonitor" in version "monitoring.coreos.com/v1"
unable to recognize "prometheus-serviceMonitorKubeControllerManager.yaml": no matches for kind "ServiceMonitor" in version "monitoring.coreos.com/v1"
unable to recognize "prometheus-serviceMonitorKubeScheduler.yaml": no matches for kind "ServiceMonitor" in version "monitoring.coreos.com/v1"
unable to recognize "prometheus-serviceMonitorKubelet.yaml": no matches for kind "ServiceMonitor" in version "monitoring.coreos.com/v1"

#由于配置文件有先后顺序，所以这边有一些文件没有获取到，这里没有关系。我们在从新apply刷新一下即可

[root@k8s-master1 manifests]# kubectl apply -f .

当我们部署成功之后，我们可以查看一下crd,yaml文件会自动帮我们创建crd文件。只有我们创建了crd文件，我们的serviceMonitor才会有用

[root@k8s-master1 manifests]# kubectl get crd
NAME CREATED AT
alertmanagers.monitoring.coreos.com 2019-07-09T17:38:48Z
podmonitors.monitoring.coreos.com 2019-07-09T17:38:48Z
prometheuses.monitoring.coreos.com 2019-07-09T17:38:48Z
prometheusrules.monitoring.coreos.com 2019-07-09T17:38:49Z
servicemonitors.monitoring.coreos.com 2019-07-09T17:38:49Z

其他的资源文件都会部署在一个命名空间下面，在monitoring里面是operator Pod对应的列表

[root@k8s-master1 manifests]# kubectl get pod -n monitoring
NAME READY STATUS RESTARTS AGE
alertmanager-main-0 2/2 Running 0 49m
alertmanager-main-1 2/2 Running 0 48m
alertmanager-main-2 2/2 Running 0 48m
grafana-545d8c5576-8lgvg 1/1 Running 0 51m
kube-state-metrics-c86f5648c-4ffdb 4/4 Running 0 25s
node-exporter-7hthp 2/2 Running 0 51m
node-exporter-r7np2 2/2 Running 0 51m
node-exporter-ssbdr 2/2 Running 0 51m
node-exporter-wd7jm 2/2 Running 0 51m
prometheus-adapter-66fc7797fd-bd7gx 1/1 Running 0 51m
prometheus-k8s-0 3/3 Running 1 49m
prometheus-k8s-1 3/3 Running 1 49m
prometheus-operator-7cfc488cdd-wtm8w 1/1 Running 0 51m

其中prometheus和alertmanager采用的StatefulSet，其他的Pod则采用deployment创建

[root@k8s-master1 manifests]# kubectl get deployments.apps -n monitoring
NAME READY UP-TO-DATE AVAILABLE AGE
grafana 1/1 1 1 53m
kube-state-metrics 1/1 1 1 53m
prometheus-adapter 1/1 1 1 53m
prometheus-operator 1/1 1 1 53m
[root@k8s-master1 manifests]# kubectl get statefulsets.apps -n monitoring
NAME READY AGE
alertmanager-main 3/3 52m

prometheus-k8s 2/2 52m

#其中prometheus-operator是我们的核心文件，它是监控我们prometheus和alertmanager的文件

现在创建完成后我们还无法直接访问prometheus

[root@k8s-master1 manifests]# kubectl get svc -n monitoring |egrep "prometheus|grafana|alertmanage"
alertmanager-main ClusterIP 10.106.59.84 <none> 9093/TCP 59m
alertmanager-operated ClusterIP None <none> 9093/TCP,6783/TCP 57m
grafana ClusterIP 10.110.58.16 <none> 3000/TCP 59m
prometheus-adapter ClusterIP 10.105.34.241 <none> 443/TCP 59m
prometheus-k8s ClusterIP 10.102.246.32 <none> 9090/TCP 59m
prometheus-operated ClusterIP None <none> 9090/TCP 57m
prometheus-operator ClusterIP None <none> 8080/TCP 59m
/<none>/<none>/<none>/<none>/<none>/<none>/<none>

由于默认的yaml文件svc采用的是ClusterIP，我们无法进行访问。这里我们可以使用ingress进行代理，或者使用node-port临时访问。我这里就修改一下svc，使用node-port进行访问

#我这里使用edit进行修改，或者修改yaml文件apply下即可

kubectl edit svc -n monitoring prometheus-k8s
#注意修改的svc是prometheus-k8s因为这个有clusterIP
kubectl edit svc -n monitoring grafana
kubectl edit svc -n monitoring alertmanager-main
#三个文件都需要修改，不要修改错了。都是修改有clusterIP的
...
type: NodePort #将这行修改为NodePort

prometheus-k8s、grafana和alertmanager-main都是只修改type=clusterIP这行

image_1dfc0kddh1lbk1gc11r4k16q1rim.png-73.3kB

修改完毕后，我们在查看svc，就会发现这几个都包含node端口了，接下来在任意集群节点访问即可

#operator会自动帮我们刷新配置，我们需要修改的地方不是很多

[root@k8s-master1 manifests]# kubectl get svc -n monitoring |egrep "prometheus|grafana|alertmanage"
alertmanager-main NodePort 10.106.59.84 <none> 9093:30857/TCP 66m
alertmanager-operated ClusterIP None <none> 9093/TCP,6783/TCP 64m
grafana NodePort 10.110.58.16 <none> 3000:32479/TCP 66m
prometheus-adapter ClusterIP 10.105.34.241 <none> 443/TCP 66m
prometheus-k8s NodePort 10.102.246.32 <none> 9090:32556/TCP 66m
prometheus-operated ClusterIP None <none> 9090/TCP 64m
prometheus-operator ClusterIP None <none> 8080/TCP 66m
/<none>/<none>/<none>/<none>/<none>/<none>/<none>

接下来我们查看prometheus的Ui界面

[root@abcdocker manifests]# kubectl get svc -n monitoring |grep prometheus-k8s
prometheus-k8s NodePort 10.110.6.193 <none> 9090:31723/TCP 8m10s
/<none>

我们访问的集群任意IP:31723

123123.png-584.6kB

这里kube-controller-manager和kube-scheduler并管理的目标，其他的都有。这里的就是和我们yaml文件里面定义的有关系

image_1dfvaqmqj1oel18kfu01p79e61o.png-47.6kB

配置文件解释

[root@yzsjhl82-138 ~]# cd kube-prometheus-master/manifests/
[root@yzsjhl82-138 manifests]# vim prometheus-serviceMonitorKubeScheduler.yaml
apiVersion: monitoring.coreos.com/v1 #kubectl get crd里面包含的，不进行修改
kind: ServiceMonitor

metadata:
labels:
k8s-app: kube-scheduler
name: kube-scheduler #定义的名称
namespace: monitoring
spec:
endpoints:
- interval: 30s
port: http-metrics #这里定义的就是在svc上的端口名称
jobLabel: k8s-app
namespaceSelector: #表示匹配哪一个命名空间，配置any:true则回去所有命名空间中查询
matchNames:
- kube-system
selector: #这里大概意思就是匹配kube-system命名空间下具有k8s-app=kube-scheduler标签的svc
matchLabels:
k8s-app: kube-scheduler

这时候我们可以手动匹配一下，根据yaml文件的配置是匹配kube-system命名空间下标签为k8s-app=kube-scheduler

#通过匹配可以看到，在kube-system没有一个标签为kube-scheduler
[root@abcdocker manifests]# kubectl get svc -n kube-system -l k8s-app=kube-scheduler
No resources found.
[root@abcdocker manifests]# kubectl get svc -n kube-system -l k8s-app=kubelet
NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
kubelet ClusterIP None <none> 10250/TCP 24h
/<none>

要想要kube-scheduler关联上，我们就需要手动创建一个svc

未完=========

相關文章:

一份文档教你“玩转”微服务与容器化：Docker+K8S+Spring cloud

阿里p8大佬总结出进阶架构师必备知识：微服务+docker+K8S+Nginx

Krustlet 可让用户在 K8s 上简单部署 WebAssembly 工作负载

准备跳槽的程序员收下这份实战文档：SSM+微服务+Nginx+K8s+MySQL

K8S-Dashboard代替品

五篇精心整理、如超巨般全面的实战PDF：SSM+Nginx+微服务+K8s

实战文档：彻底搞懂Nginx+微服务+SSM+K8s+Redis+MySQL，请签收。

双料架构师必备，Nginx+微服务+Redis+Mysql+HD+Saprk+Flink+k8s

Kubernetes系列之kubernetes Prometheus Operator

学会这些微服务一点都不难：Docker+k8s+SpringCloud+SpringBoot

Java程序员进大厂需必备的架构实战文档：K8S+Nginx+SB+SC+docker

k8s 时区 docker 时区 中国时区

Java程序员进阶架构师的必备知识：微服务+docker+K8S+Nginx

K8S 生态周报｜Docker v19.03.7 发布

K8S 生态周报｜rkt 项目正式归档并宣布终止

02.27 古典、SOA、传统、K8S、ServiceMesh （学不动了）

重磅！K8S 1.18版本将内置支持SideCar容器

使用 Kind 在离线环境创建 K8S 集群

k8s calico flannel cilium 网络性能测试

01.10 「K8S 系列」 详解K8S Stateful Services

12.30 Kubernetes Operator 入门

给你一个用Kubernetes(k8s)的理由

k8s scheduler-framework 介绍

K8s 使用code-generator生成crd controller

K8S deployment故障可视化排查指南

Docker+K8S 集群环境搭建及分布式应用部署

K8S--基础概念

k8s 架构浅析

使用 Rook Operator 快速搭建 Ceph 集群

K8s 还是 k3s？This is a question

Dubbo 在 K8s 下的思考

Kubernetes笔记：部署集群监控prometheus-operator

实时监控Kubernetes工具(Weave Scope)

02.20 k8s-你学会了吗？-上半理论部分

Google宣布为Spark推出Kubernetes Operator

01.11 Kubernetes API 与 Operator，不为人知的开发者战争

ES6 语法密糖，Spread Operator 技巧，提升代码逼格

福利：容器、Docker、K8S

k8s中通过consul实现prometheus联邦功能

k8s 数据持久化

k8s 命令详解（pod，label，job）

k8s 常用命令详解

国庆福利！k8s docker集群搭建

Python 模块 Operator

第二章 IoC容器和Bean配置

运算里不得不说的python模块—math

Devops度量--DevOps 现状快速检查表

SOP是什么（解读）

还不知道交换机上如何配置DHCP，赶紧过来围观吧，一分钟包你学会

还在手动配置IP地址吗？太Low了，一分钟教会您如何配置DHCP

Python爬虫自学笔记：分析头条文章网页源文件

DNS侦查工具

国人开源的异步 Python ORM：GINO

程序测评：Create React App 3.3中有哪些酷炫新功能？

“明学”的魅力？我只要我觉得：驾驭终端，提高生产力

（必收藏系列）Linux面试题——命令集

五分钟学会如何在 IPFS 上部署网站

「正点原子NANO STM32F103开发板资料连载」第29章 内存管理实验

小白怎么学Web前端开发 如何成为技术达人

如何开发一个web静态服务器

学Java编程还有前景吗 如何才能拿到高薪

Python网络爬虫之配置篇（一）

SpringBoot 整合SpringSecurity示例实现前后分离权限注解+JWT登录认证

Python的运行效率太低？几行代码快速提升！

python的优点是什么？最新Python400集视频（附教程）

MySQL中OOM故障应如何下手-爱可生

像专家一样使用 panic

30种不同的编程语言怎么写“Hello, World”

percona QAN 介绍

面试官：你可以用纯CSS判断鼠标进入的方向吗？

网络工程师职业生涯中，哪两点是最重要的？

交换机中相关术语代表什么意思，有必要弄清楚

由浅入深了解以太坊 2.0：最常见问题和最全学习清单

【Linux简单实用小命令001】CentOS 7、8的防火墙端口开放

吃透这些IPFS硬核知识点，日后抢头矿随时“弯道超车”

Hive分桶表

Spring中资源的加载原来是这么一回事啊！

自己动手搭建邮件系统：怎样让Exchange Server 发出第一封邮件？

【MySQL】RDS物理备份文件(.idb\.frm)恢复到MySQL自建数据库

k8s 时区 docker 时区中国时区

01.10 「K8S 系列」详解K8S Stateful Services

「正点原子NANO STM32F103开发板资料连载」第29章内存管理实验

小白怎么学Web前端开发如何成为技术达人

学Java编程还有前景吗如何才能拿到高薪