主账号使用主要聚焦运维管理和资源全流程创建,根据使用资源不同,分为两类使用方式:标准资源组、扩展资源组,资源组差异详情请参考:资源组
标准资源组使用流程
扩展资源组使用流程
如上运维及资源组操作完成后,可参考子账号使用流程完成训练任务创建及运行。
使用流程说明
流程 | 子任务 | 说明 | 详细指导 |
---|---|---|---|
注册账号 | 账号注册 | 首次登录一体化计算加速平台·异构计算平台需要先完成主账号注册 | 注册账号 |
注册账号 | 会员实名认证(可选) | 子账号无法进行运维管理,仅可创建和管理训练镜像,创建和管理任务,查看训练任务监控指标。 | 会员服务-实名认证 |
注册账号 | 创建子账号 | 子账号无法进行运维管理,仅可创建和管理训练镜像,创建和管理任务,查看训练任务监控指标。 | 创建子账号 |
创建资源组 | 创建标准资源组 | 标准资源组提供基于GPU物理机和GPU云主机的集群化开通与管理 | 创建标准资源组 |
创建资源组 | 创建扩展资源组 | 标准资源组提供全托管和高可用控制面板的标准Kubernetes集群服务 | 创建扩展资源组 |
创建资源组 | 创建/纳管节点 | 资源组创建完成后需要创建/纳管节点用于承载任务所需算力运行。 | 创建/纳管节点 |
创建资源组 | 创建队列 | 队列是资源配额、以及任务运行的隔离单元,在运行训练或推理任务时,通过将任务绑定到队列进行资源的排队和使用申请 | 创建队列 |
数据准备 | 创建存储挂载 | 通过存储挂载,可支持用户将ZOS或HPFS实例批量挂载到相应的节点上,并且管理挂载目录。 | 创建存储挂载 |
数据准备 | 创建 K8S 共享存储 | 可对训练中用到海量数据的进行准备与管理,用户实现动态弹性调度,支持多种数据来源,支持开启数据加速访问。 | 创建 K8S 共享存储 |
创建工作空间 | 创建工作空间 | 工作空间可对等于项目,不同项目可进行资源隔离。 | 创建工作空间 |
创建工作空间 | 关联资源 | 在创建工作空间时需要关联队列资源。 | 关联资源 |
创建工作空间 | 授权成员 | 工作空间需要授权成员,被授权的项目成员(开发人员)可以分享AI资产(数据集、镜像、训练任务),进行协作。 | 授权成员 |
可视化运维 | 计算/存储、网络监控 | 一体化计算加速平台·异构计算平台为用户提供资源监控(资源组监控、节点监控)、HPFS监控、RoCE监控、任务监控,多种维度查看监控指标的变化情况。 | 计算/存储、网络监控 |
可视化运维 | 一键检测 | 一键诊断功能能够帮助本平台资源组管理的节点、网络等主要资源进行有效的检测和运维。 | 一键检测 |