使用前提
当前用户是主账号。
操作步骤
- 选择检测内容:
-
点击“通讯库性能检测”菜单,进入通讯库性能检测新建页,选择检测内容。
-
通讯库类别:nccl(英伟达)、hccl(昇腾)。
-
通讯模型:选择相关通讯模型(单选)。
-
单节点待测GPU数量:1-8,默认为8,目前云骁支持的节点规格单节点不会超过8卡。
-
启用SHARP:选择nccl,默认勾选,选择hccl,无此选项。
备注:SHARP 是随IB网络一起推出的,可将集合通信运算(如 all-reduce、reduce 和 broadcast)从服务器的计算引擎卸载到网络交换机的插件。通过直接在网络结构中执行
归约(求和、平均等),勾选SHARP在配套软硬件支持的基础上可改进这些运算和整体应用程序性能。
- 选择检测目标:
- 资源组名称:根据选择的通讯库(nccl或hccl)列出相关资源组供用户选择。如选择nccl,则列出英伟达资源组;选择了hccl,列出昇腾资源组。
- 选择节点:根据选择的资源组列出资源组下方的节点,对节点进行勾选,可多选。
- 节点密码:输入资源组下节点的密码。*注意:资源组下各节点密码需要保持一致,该输入框只能输入一个节点密码,不一致会检测失败。
- 开始检测:
- 点击“开始检测”,启动检测,也可以点击检测历史查看节点的历史检测报告。
- 启动之后,进行检测确认。确认之后,跳入检测历史页面进行检测结果查看。