为什么新建节点时选择不到预期的物理机规格?
GPU物理机规格默认不可见,需要联系客户经理进行加白名单流程。
标准资源组和扩展资源组的区别是什么?
标准资源组提供基于GPU物理机和GPU云主机的标准集群服务;
扩展资源组是在标准资源组的基础上安装Kubernetes服务及相应组件。
退订节点和移除节点有什么区别?
- 退订节点:只有新建节点支持在云骁平台进行退订操作,退订操作会导致资源回收和清理,节点上的数据将无法恢复。
- 移除节点:只有纳管节点支持在云骁平台进行移除操作,将非云骁平台开通的节点与资源组解绑并移除出节点列表,不涉及底层资源的退订。
队列“锁定”操作会影响队列内正在运行的训练任务吗?
“锁定”队列后,只是禁止后续训练任务在该队列上调度,不会影响目前队列内已创建完成的任务。