操作步骤
一、创建巡检模板
- 进入巡检平台:【基础平台->工具->系统巡检】。
- 首次使用需要先创建巡检模板。
- 配置巡检模板:点击巡检模板右侧的巡检项。
二、添加巡检项目
巡检项分为计算层、主机层、存储层3大类。根据需要巡检的计算集群数量、主机数量、存储集群数量添加具体的巡检项条目。
计算层:
巡检对象为集群(以当前平台纳管了3个计算集群为例):
XM-XXX-GPU-K8S:GPU集群。
XM_XXX_K8S:X86集群(云管平台所在集群)。
XM_XXX_XC_K8S:鲲鹏集群。
计算层巡检范围说明:
业务:集群业务相关巡检(如订单状态、VPC健康状态、许可证等)。
云管平台:云管平台核心组件巡检(仅平台所在集群需要勾选)。
资源池:资源池基础组件巡检。
以云管平台运行在XM_XXX_K8S为例,所以仅该集群需要勾选云管平台的巡检项。
主机层:
主机层的巡检对象为物理服务器。
巡检范围说明:
主机:通用巡检项,巡检物理服务器系统资源及硬件健康情况。
Master节点:对K8s master节点的管理组件进行巡检。
Worker节点:对K8s worker节点的计算组件进行巡检。
需要根据节点本身的用途进行巡检范围区分。
例:
172.23.210.x为存储服务器,仅执行通用巡检项。
192.168.211.x 为master节点同时也是worker节点,需要全选所有巡检项。
192.168.211.x 为worker节点,执行通用巡检和worker节点巡检。
存储层:
巡检对象为存储集群。
根据实际巡检要求添加集群即可。
三、创建巡检任务
巡检任务页面点击【新增】按钮,自定义名称后选择前面创建的模板。
巡检类型支持手动触发或者定时执行。
点击任务项右侧的【详情】按钮可以查看每个巡检项的具体巡检细项(了解即可)。
点击任务项左侧的箭头即可展开查看具体每次的巡检作业情况。
点击任务项右侧的【开始巡检】按钮创建巡检作业。
四、查看巡检结果
等巡检作业完成后,点击【作业ID】或者【详情】按钮查看具体结果,点击【查看巡检报告】按钮看巡检概览信息,其中展示所有的异常巡检项,可以看到每个巡检项目的得分情况。
五、下载巡检报告
如需下载报告发送至相关人员处理异常问题,可点击【下载巡检报告】按钮,填入整体建议后导出巡检结果。
六、常见问题
1.巡检某集群发现nest组件异常,但是集群并没有运行nest相关组件。
答:进行计算层巡检时,仅运行了云管平台的集群需要勾选云管平台的巡检项,否则查询不到相关组件会报告组件异常。
2.主机巡检的master或者worker节点巡检项全部异常。
答:确认该节点是否为K8S的master或worker节点,若是存储节点则仅需勾选主机巡检项,worker节点不要勾选master巡检项。