资源组是指运行所需要的资源组合。云骁智算提供两种资源组类型:云骁标准资源组和云骁扩展资源组。云骁标准资源组提供基于GPU物理机和GPU云主机(部分资源池支持)的集群化开通与管理,云骁扩展资源组在标准资源组基础上提供全托管和高可用控制面板的标准Kubernetes集群服务,支持以云骁计算节点作为Kubernetes集群的工作节点。用户可在云骁智算产品控制台便捷地完成购买、使用的全流程,如果用户已购买单独的裸金属资源,也可在资源组创建时选择已有节点将裸金属添加至云骁智算资源组,用于后续的训练任务使用。关键能力包括:
● 算力节点间RDMA无损高速网络连接
● 高性能自研集合通信库CTCCL
● 高性能自研Checkpoint框架CTFlashCkpt
使用前提
当前用户是主账号。
操作步骤
- 登录云骁智算,单击左侧导航栏中的“资源组”,进入资源组列表页。
- 单击列表页左上方的上方的“创建资源组”,进入创建页面。
- 在创建页面进行新建资源组流程,根据自己的需求选择创建“云骁标准资源组”或者“云骁扩展资源组”。
- 云骁标准资源组创建需要输入资源组信息:输入资源组名称、可用区、网络等基本信息。标准资源组配额默认10个,可通过工单升级,单资源池最多升级为50个。
字段说明:
字段名称 | 类型 | 是否必填 | 长度 | 说明 |
---|---|---|---|---|
资源组名称 | 输入框 | 是 | 20字符 | 支持中英文、数字、下划线(_),1-20个字符,不能以下划线开头。资源组名称不能重复。 |
可用区 | 单选 | 是 | 默认第一个可用区,根据各资源池可用区情况显示。 | |
节点类型 | 多选 | 是 | 包括物理机和云主机两类,默认全部选中,至少选择一种。 | |
资源组GPU卡类型 | 单选 | 是 | 包括英伟达和昇腾两个类型,默认选中英伟达。 | |
虚拟私有云 | 下拉单选 | 是 | 点击可刷新VPC列表,点击“创建VPC”新打开页面跳转至VPC创建页面。 | |
子网 | 下拉单选 | 是 | 筛选子网下的 普通子网类型,点击选择VPC子网,点击“创建子网”新打开页面跳转至VPC创建页面。 | |
安全组 | 显示 | 是 | 默认查询是否有对应的安全组,如有则展示,如无则需要点击自动创建按钮进行创建,管理节点的安全组名称是:cwai-VPCID。可点击自动创建按钮。 | |
网络拓扑亲和性 | 勾选项 | 否 | 该功能目前处于试用阶段,仅适用于GPU裸金属场景,开通时系统会根据网络拓扑现状优先选择相邻位置的节点以降低节点间通信时延。 | |
描述 | 输入框 | 否 | 1-300 | |
协议 | 链接 | 是 | 点解链接至协议页面,勾选之后可点击确认按钮。 |
- 云骁扩展资源组创建的具体步骤如下:
扩展资源组配额默认10个,可通过工单升级,单资源池最多升级为50个。
1)输入资源组名称、可用区、网络等基本信息。
字段名称 | 类型 | 是否必填 | 长度 | 说明 |
---|---|---|---|---|
资源组名称 | 输入框 | 是 | 20字符 | 支持中英文、数字、下划线(_),1-20个字符,不能以下划线开头。资源组名称不能重复。 |
可用区 | 单选 | 是 | 默认第一个可用区,根据各资源池的可用区显示。 | |
节点类型 | 单选 | 是 | 包括物理机和云主机两个选项,只能选择一个,默认选中物理机。 | |
资源组GPU卡类型 | 单选 | 是 | 包括英伟达和昇腾两个类型,默认选中英伟达。 | |
虚拟私有云 | 下拉单选 | 是 | 点击可刷新VPC列表,点击“创建VPC”新打开页面跳转至VPC创建页面。 | |
子网 | 下拉单选 | 是 | 显示普通类型的子网信息,点击创建子网,可跳转至创建子网页面。 | |
安全组 | 显示 | 默认查询是否有对应的安全组,如有则展示,如无则需要点击自动创建按钮进行创建,管理节点的安全组名称是:cwai-VPCID 。可点击自动创建按钮。 | ||
网络拓扑亲和性 | 勾选项 | 否 | 该功能目前处于试用阶段,仅适用于GPU裸金属场景,开通时系统会根据网络拓扑现状优先选择相邻位置的节点以降低节点间通信时延。 | |
调度策略 | 多选项 | 否 | 支持DRF,Binpack ,Gang三种调度策略,可以多选。 | |
描述 | 输入框 | 否 | 0-300 |
2)输入组件配置信息:
字段名称 | 类型 | 是否必填 | 长度 | 说明 |
---|---|---|---|---|
资源组规模 | 单选 | 是 | 包括4种,1-100节点,101-300节点,301-500节点,500节点以上,默认选择 1-00节点。 | |
计费模式 | 单选 | 是 | 支持包周期或按需两种模式,默认包周期。 | |
规格 | 单选 | 是 | 选择资源池可选的规格。 | |
操作系统 | 单选 | 是 | 选择管理节点的操作系统。 | |
系统盘 | 单选 | 是 | 仅支持超高IO类型,最小40G,系统盘规格范围40-2048。 | |
数据盘 | 单选 | 是 | 选择一块数据盘,仅支超高IO类型,最小500G,数据盘规格范围500-32768。 | |
数量 | 输入框 | 是 | 默认为3。 | |
API Server | 选择 | 是 | 标准I型,增强I型,高阶I型,默认标准I型。 | |
使用EIP暴露API server | 选择 | 否 | 默认未勾选。 | |
EIP | 选择 | 否 | 当使用EIP暴露API server 为选中状态时,需要选择已有的EIP。 | |
时长 | 选择 | 是 | 包周期时显示,支持按年、按月,按月支持1-11月,按钮支持1-3年。 | |
续订方式 | 选项 | 是 | 包括自动续订,手动续订。 |
3)开通信息确认:勾选协议,点击确认按钮完成扩展资源组创建。完成支付后即完成资源组的创建,后续资源组管理员便可在资源组列表/详情页中对资源组进行管理。