健康检查
操作场景
该任务指导用户在日常运维中完成集群进行健康检查的工作,以保证集群各项参数、配置以及监控没有异常、能够长时间稳定运行。
操作说明
集群健康检查的范围包含Manager服务级别的各个组件检查:服务级别关注组件是否能够提供正常的服务、告警情况以及各个组件差异化的检查指标。
操作步骤
集群健康检查
- 手动执行所有服务的健康检查。
在集群详情页,单击集群服务列表右上角“更多操作 > 启动集群健康检查”。
- 周期执行所有服务的健康检查。
在集群服务>健康检查报告>点击列表右上方设置按钮>跳出周期任务设置弹框,支持用户根据天/周/月维度进行间隔配置,支持配合具体时刻,创建成功后,对支持的组件服务会定期发起健康检查。
说明
在翼MR Manager界面,选择“集群设置 > 更多操作 > 健康检查”,可以执行集群健康检查,集群列表页面发起的健康检查针对列表中所有的组件服务。
点击健康检查之后页面则跳转至健康检查报告Tab页面,展示集群的健康检查列表,列表置顶为最新发起的健康检查,点开一级列表下方展示各个组件的检查详情。
点击一级列表操作中的导出报告,则支持导出CSV文件,用户可本地查阅健康报告。
查看并导出检查报告
操作场景
为了满足对健康检查结果的进一步具体分析,您可以在翼MR中查看以及导出健康检查的结果。
操作说明
平台健康检查的范围包含Manager服务级别的健康检查。
集群健康检查可以包含三方面检查项:各检查对象的服务状态、告警信息、以及每个组件差异化的相关指标。
前提条件
已执行健康检查。
操作步骤
- 在集群详情页,点击健康检查报告“管理操作 > 查看集群健康检查报告”。
- 在健康检查的报告面板上单击“导出报告”导出健康检查报告,下载后可本地查看检查项的完整信息,集群与主机健康检查报告导出格式均为CSV。