使用前提
当前用户是主账号。
操作步骤
- 选择检测类型:
- 点击“服务器检测”菜单,进入服务器检测任务新建页。
- 选择“Nvidia系列”或者"昇腾系列"。
- 选择检测内容:
- 节点通用检测项:该项为系统内置检测项,用来判断单个节点的关键软件和配置是否符合预期,用户可以根据自己的业务需求进行检测项的选择,检测结果为“通过”或“不通过”。
- 多节点一致性检测项:系统内置检测项,用来判断参与训练的多节点关键配置是否一致。主要分为两种场景:
a.第一种场景:用户选择其中一个节点的配置作为基线,其他节点均和基线节点进行对比,如果结果一致,则检测结果为“通过”,不一致,则检测结果为“不通过”。
b.第二种场景:用户没有设置基线节点,则将对所有节点的安装配置结果进行统计,将每项检测的所有检测结果详细列出,结果“不涉及”是否通过。 - 节点可配置检测项:系统内置检测项和用户自定义检测参数。针对具体检测项,用户可自行定义检测标准,检测结果为“通过”或“不通过”。
- 选择检测目标:
- 资源组:根据选择的系列(Nvidia或昇腾)列出相关资源组供用户选择(单选)。
- 节点:左侧选择资源组内单个或多个节点作为目标,将其移动到右侧成为已选节点。
- 开启基线节点设置:选择一个节点作为多节点一致性检测的基线节点,此项为非必选。如果选择“开启节点基线设置”,则需要在右侧已选节点列表中选择一个节点作为基线节点。
- 输入节点密码:输入创建该节点时设置的密码。注意:选择多个节点需要保证所有节点的密码一致,节点密码只有一个输入框,如不一致会检测失败。
- 开始检测:
- 点击“开始检测”,启动检测,也可以点击检测历史查看节点的历史检测报告。
- 启动之后,进行检测确认。确认之后,跳入检测历史页面进行检测结果查看。