背景信息:
当云主机异常、网络异常或Agent停止服务时,都会触发监控Agent“心跳检查失败”的问题,导致云主机无监控数据。本文将为您介绍云主机无监控数据的处理办法。
操作步骤
-
尝试通过重新安装监控Agent来恢复其运行状态。具体操作请参见安装监控Agent。
· 重装成功:结束,云主机监控正常。
· 重装失败:执行下一步。
注意若监控异常云主机为GPU(NVIDIA)云主机,需先安装相关驱动后才可查看GPU监控指标。具体查询方法如下:
登录GPU云主机并执行命令 nvidia-smi,
若无次命令返回,请参考NVIDIA驱动安装指引安装驱动后再查看监控数据。
若有次命令返回,请参考后续步骤排查异常。
-
确认云主机状态是否为运行中。只有状态为运行中的云主机,云主机监控Agent才可以正常上报心跳。您可以通过控制台或OpenAPI查询云主机状态信息。
· 云主机状态为运行中:执行下一步。
· 云主机状态非运行中:请对云主机执行开启或重启操作。 -
检查云主机内安装的监控Agent是否运行正常。具体查看查询方法如下:
Linux 操作系统
请登录云主机执行以下命令:systemctl status telegraf
Windows操作系统
请登录云主机执行以下命令get-Service ctyuntelegraf
· 监控Agent状态为active或running:执行下一步。
· 监控Agent状态非active或running:请执行重启监控Agent操作,具体操作可参考如何重启监控Agent。
-
在主机上curl监控的心跳IP地址,检查主机的网络是否正常。登录云主机后执行以下命令:
curl 169.254.169.254:10063
· 网络正常:执行下一步。
· 网络异常:请检查云主机是否设置防火墙或其他服务屏蔽监控服务器地址。 -
收集日志,并提交工单。
· Linux操作系统:/var/log/telegraf/log-of-err
·Windows操作系统:C:/Program Files/ctyuntelegraf/telegraf/telegraf.log