Linux|centos7下部署安装alertmanager并实现邮箱和微信告警（基础篇---三）

2023-05-17 06:57:35 阅读次数：133

前言：

前文Linux|centos7下部署安装alertmanager并实现邮箱和微信告警（二）_晚风_END的博客-CSDN博客实现了告警系统模块的部署和测试，主要的告警范围是服务器节点的操作系统内存，磁盘空间的使用率这些方面，并没有涵盖系统的主要服务，例如docker，nginx，tomcat，MySQL等等由systemd管理的服务的监控。因此，本文将就如何扩展node_exporter来监测一些常用的由systemd进程管理的主要服务以及CPU使用率监测的实现做一个讲解。

一，

node_exporter的扩展

首先，我们看看node_exporter的帮助：

      --collector.arp            Enable the arp collector (default: enabled).
      --collector.bcache         Enable the bcache collector (default: enabled).
      --collector.bonding        Enable the bonding collector (default: enabled).
      --collector.btrfs          Enable the btrfs collector (default: enabled).
      --collector.buddyinfo      Enable the buddyinfo collector (default: disabled).
      --collector.cgroups        Enable the cgroups collector (default: disabled).
      --collector.conntrack      Enable the conntrack collector (default: enabled).
      --collector.cpu            Enable the cpu collector (default: enabled).
      --collector.cpufreq        Enable the cpufreq collector (default: enabled).
      --collector.diskstats      Enable the diskstats collector (default: enabled).
      --collector.dmi            Enable the dmi collector (default: enabled).
      --collector.drbd           Enable the drbd collector (default: disabled).
      --collector.drm            Enable the drm collector (default: disabled).
      --collector.edac           Enable the edac collector (default: enabled).
      --collector.entropy        Enable the entropy collector (default: enabled).
      --collector.ethtool        Enable the ethtool collector (default: disabled).
      --collector.fibrechannel   Enable the fibrechannel collector (default: enabled).
      --collector.filefd         Enable the filefd collector (default: enabled).
      --collector.filesystem     Enable the filesystem collector (default: enabled).
      --collector.hwmon          Enable the hwmon collector (default: enabled).
      --collector.infiniband     Enable the infiniband collector (default: enabled).
      --collector.interrupts     Enable the interrupts collector (default: disabled).
      --collector.ipvs           Enable the ipvs collector (default: enabled).
      --collector.ksmd           Enable the ksmd collector (default: disabled).
      --collector.lnstat         Enable the lnstat collector (default: disabled).
      --collector.loadavg        Enable the loadavg collector (default: enabled).
      --collector.logind         Enable the logind collector (default: disabled).
      --collector.mdadm          Enable the mdadm collector (default: enabled).
      --collector.meminfo        Enable the meminfo collector (default: enabled).
      --collector.meminfo_numa   Enable the meminfo_numa collector (default: disabled).
      --collector.mountstats     Enable the mountstats collector (default: disabled).
      --collector.netclass       Enable the netclass collector (default: enabled).
      --collector.netdev         Enable the netdev collector (default: enabled).
      --collector.netstat        Enable the netstat collector (default: enabled).
      --collector.network_route  Enable the network_route collector (default: disabled).
      --collector.nfs            Enable the nfs collector (default: enabled).
      --collector.nfsd           Enable the nfsd collector (default: enabled).
      --collector.ntp            Enable the ntp collector (default: disabled).
      --collector.nvme           Enable the nvme collector (default: enabled).
      --collector.os             Enable the os collector (default: enabled).
      --collector.perf           Enable the perf collector (default: disabled).
      --collector.powersupplyclass  
                                 Enable the powersupplyclass collector (default: enabled).
      --collector.pressure       Enable the pressure collector (default: enabled).
      --collector.processes      Enable the processes collector (default: disabled).
      --collector.qdisc          Enable the qdisc collector (default: disabled).
      --collector.rapl           Enable the rapl collector (default: enabled).
      --collector.runit          Enable the runit collector (default: disabled).
      --collector.schedstat      Enable the schedstat collector (default: enabled).
      --collector.selinux        Enable the selinux collector (default: enabled).
      --collector.slabinfo       Enable the slabinfo collector (default: disabled).
      --collector.sockstat       Enable the sockstat collector (default: enabled).
      --collector.softnet        Enable the softnet collector (default: enabled).
      --collector.stat           Enable the stat collector (default: enabled).
      --collector.supervisord    Enable the supervisord collector (default: disabled).
      --collector.sysctl         Enable the sysctl collector (default: disabled).
      --collector.systemd        Enable the systemd collector (default: disabled).
      --collector.tapestats      Enable the tapestats collector (default: enabled).
      --collector.tcpstat        Enable the tcpstat collector (default: disabled).
      --collector.textfile       Enable the textfile collector (default: enabled).
      --collector.thermal_zone   Enable the thermal_zone collector (default: enabled).
      --collector.time           Enable the time collector (default: enabled).
      --collector.timex          Enable the timex collector (default: enabled).
      --collector.udp_queues     Enable the udp_queues collector (default: enabled).
      --collector.uname          Enable the uname collector (default: enabled).
      --collector.vmstat         Enable the vmstat collector (default: enabled).
      --collector.wifi           Enable the wifi collector (default: disabled).
      --collector.xfs            Enable the xfs collector (default: enabled).
      --collector.zfs            Enable the zfs collector (default: enabled).
      --collector.zoneinfo       Enable the zoneinfo collector (default: disabled).

可以看到--collector.systemd是默认不采集的，但有一个问题，如果开启了，那么所有的systemd管理的启停脚本都将要采集，有一些无关紧要的服务是不需要的，因此，需要先开启--collector.systemd 然后设置一个白名单。具体做法如下：

修改node_exporter的启停脚本，内容如下：

[Unit]
Descriptinotallow=node_exporter Monitoring System
Documentatinotallow=node_exporter Monitoring System

[Service]
ExecStart=/usr/local/bin/node_exporter --web.listen-address=:9100 --collector.systemd --collector.systemd.unit-whitelist=(nginx|docker|sshd).service

[Install]
WantedBy=multi-user.target

重启node_exporter服务：

systemctl daemon-reload && systemctl restart node_exporter

打开浏览器，登录Prometheus的管理界面，输入PromeQL语句 node_systemd_unit_state{job="server",name="sshd.service"} ：

（job的名称是在Prometheus 的主配置文件内设定的，必须要有设定才可以用哦）

可以看到查询到了sshd服务，同样的将name="sshd.service"替换成name="docker.service" 也可以查询到规则匹配的范围

下图表示sshd服务的四种状态，

Linux|centos7下部署安装alertmanager并实现邮箱和微信告警（基础篇---三）

同样的，查询docker服务：

OK，可以看到只有192.168.217.23 五种服务状态，state="inactive"表示docker服务挂掉了，24服务器确实没有安装docker环境，因此，这些采集是准确无误的。

Linux|centos7下部署安装alertmanager并实现邮箱和微信告警（基础篇---三）

二，

编写报警规则

groups:
- name: systemd.rules
  rules:
  - alert: docker_systemd_down  # 告警聚合的名称依据
    expr: node_systemd_unit_state{job="server", name="docker.service", state="inactive"} ==1
    for: 1m
    labels:
      severity: 灾难  # 告警级别
    annotations:
      summary: "Instance {{ $labels.name }} 停止工作"
      description: "{{ $labels.instance }}的{{ $labels.name }} 已经停止1分钟以上"

这个文件随便命名吧，后缀必须是yml即可，放置在/usr/local/prometheus/rules/目录下，然后重启Prometheus server：

systemctl restart prometheus

继续查询：

Linux|centos7下部署安装alertmanager并实现邮箱和微信告警（基础篇---三）

三，

测试环节

在23服务器上手动停止docker，模拟故障：

systemctl stop docker

查看Prometheus server的管理界面的Alert，可以看到成功触发报警

Linux|centos7下部署安装alertmanager并实现邮箱和微信告警（基础篇---三）

稍等片刻后，邮件也收到了，告警级别也会变成firing：

Linux|centos7下部署安装alertmanager并实现邮箱和微信告警（基础篇---三）

四，

增加CPU负载告警规则：

groups:
- name: systemd.rules
  rules:
  - alert: docker_systemd_down  # 告警聚合的名称依据
    expr: node_systemd_unit_state{job="server", name="docker.service", state="inactive"} ==1
    for: 1m
    labels:
      severity: 灾难  # 告警级别
    annotations:
      summary: "Instance {{ $labels.name }} 停止工作"
      description: "{{ $labels.instance }}的{{ $labels.name }} 已经停止1分钟以上"
  - alert: NodeCPUUsage
    expr: 100 - (avg(irate(node_cpu_seconds_total{mode="idle"}[5m])) by (instance) * 100) > 80
    for: 2m
    labels:
      severity: 危险
    annotations:
      summary: "{{$labels.instance}}: CPU使用过高"
      description: "{{$labels.instance}}: CPU使用大于 80% (当前值: {{ $value }})"

同样的，重启Prometheus server服务：

systemctl restart prometheus

同样的查询规则范围和准确度：

Linux|centos7下部署安装alertmanager并实现邮箱和微信告警（基础篇---三）

测试环节：

使用stress 模拟CPU负载超过80（在23服务器上执行）：

#创建8个stress进程，持续时间600秒，模拟CPU在用户态使用率达到100%的场景。
stress --cpu 8 --timeout 600



#或者创建8个stress进程和100个io进程，持续时间600秒，模拟CPU在用户态和内核态总使用率达到100%的场景。
stress -c 8 -i 100 --verbose --timeout 600

在Prometheus server管理界面，可以看到CPU负载达到了百分百：

Linux|centos7下部署安装alertmanager并实现邮箱和微信告警（基础篇---三）

在alert页面可以看到确实是百分百了，当然，邮件也发送了：

Linux|centos7下部署安装alertmanager并实现邮箱和微信告警（基础篇---三）

基本的告警流程大概就这样了，告警等级可以使用中文是比较好的一个设定。

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

Linux|centos7下部署安装alertmanager并实现邮箱和微信告警（基础篇---三）

Linux|centos7下部署安装alertmanager并实现邮箱和微信告警（基础篇---三）

前言：

一，

node_exporter的扩展

首先，我们看看node_exporter的帮助：

二，

编写报警规则

三，

测试环节

四，

增加CPU负载告警规则：

相关文章

JumpServer各种用户的关联与管理

小课2：筛选信息命令

对称加密、非对称加密在https中的应用

数据库小白变大咖：社招面试MySQL高可用问题解决攻略！

【http缓存】

XSS攻击和CSRF攻击解析

shell脚本实现查询代码中定义了多少宏的方法

SQL Server 服务器配置

【有序集合 堆 优先队列】1606. 找到处理最多请求的服务器|2275

网络爬虫入门及准备工作（爬虫及数据可视化）

作者介绍

最新文章

Spring Boot + Shiro 实现 Session 持久化实现思路及遗留问题

spring cloud系统安装涉及的技术说明

Linux-CentOS7部署Docker容器微服务相关总结记录

SpringBoot项目在linux下部署脚本实例

计算机网络经典面试题：在浏览器中输入URL并按下回车后会发生什么？

linux服务器部署（以django项目为例）（三）

热门文章

ansible实现 AMP服务器的部署

VUE 项目本地没有问题，部署到服务器上提示错误

Samba服务器的部署配置

部署DNS服务相关理论

windows server 2016部署路由与远程访问服务（VPN）

Windows系统DNS部署与安全

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

k8s 准入控制器【4】--编写和部署准入控制器 Webhook--以非root运行pod

LVM逻辑卷管理器,部署逻辑卷,扩容逻辑卷,缩小逻辑卷,删除逻辑卷

jenkins部署

云原生|kubernetes|部署MySQL一主多从复制集群（基于Binlog+Position的复制）

怎么降低RADIUS认证服务器的部署成本？

etcd是无界面的，不好看，joinsunsoft/etcdv3-browser是etcd的web可视化工具之一。请问在k3s中部署，yaml如何写？

【有序集合堆优先队列】1606. 找到处理最多请求的服务器|2275