队列旨在帮助用户精细化管理资源,队列是一个资源池中部分资源的集合,用于工作负载,比如训练任务、在线服务的运行,一个资源池中可创建多个队列。用户购买资源池后可将资源池划分成若干个队列,并使用队列中的资源处理不同业务的工作负载。
打开队列管理,顶部导航栏下拉选择集群的位置,选择到自己所有的专属集群。
【创建队列】操作
点击【创建队列】按钮,进入创建队列页面,填写相应信息。
说明
负载类型:选择的负载类型,代表对应的任务可以提交到该队列,占用该队列资源。比如某队列,负载类型选择了大模型微调、在线服务,则代表这两类任务可以提交到该队列,其他任务比如IDE、大模型评估等不可以提交到该队列。
实例规格和实例数:共同决定了该队列的资源额度上限。
管理员和成员:管理员的权限高于成员,成员只能使用该队列的资源,管理员除了能使用资源以外,还能管理该队列,具体包含管理用户,编辑,更配、启动/停止、删除操作。
【查询】操作
创建好的队列会出现在队列列表里,可通过负载类型、状态筛选,也可以通过队列ID、名称搜索。
【管理用户】操作
在队列列表右侧【操作】列,点击【管理用户】,则弹出管理用户窗口,搜索要添加的用户,搜到后选中,一次可选多个,然后选择角色,默认是【成员】,可改成管理员。对于已在队列里的用户,也可以删除,找到该用户,取消勾选即可。
【编辑】操作
在队列列表右侧【操作】列,点击【…】会出现下拉菜单,展示了具体的操作项,选择【编辑】,则弹出队列编辑窗口,可修改队列名称、描述。
【更配】操作
在队列列表右侧【操作】列,点击【…】会出现下拉菜单,展示了具体的操作项,选择【更配】,则弹出队列更配窗口,可修改队列的负载类型、实例规格、实例数。
注意
负载类型修改:该队列支持的任务类型按最新修改生效,比如之前支持大模型评估,修改后不支持了,则后续评估任务选队列时,则不再展示该队列。
实例规格修改:若该队列的存量任务中存在正在运行的任务以及排队中的任务,则不能修改,反之可以修改。
实例数修改:实例数调大,上限是资源池内可支持的上限,比如资源池里还有100卡没有划分到队列,则实例数最大就是100除以规格向下取整。若用户设置的超过这个数,则给出报错提示。实例数调小,下限是队列里已分配的卡数与该队列里排队中的任务中单任务所需的最大卡数的较小值。若用户设置的低于这个数,则给出报错提示。
【启动/停止】操作
在队列列表右侧【操作】列,点击【…】会出现下拉菜单,展示了具体的操作项,选择【启动/停止】,点击即可。
注意
停止队列:则不可以继续往该队列里提交任务,存量任务还是会执行完。
启动队列:则可以继续向该队列里提交任务。
【删除】操作
在队列列表右侧【操作】列,点击【…】会出现下拉菜单,展示了具体的操作项,选择【启动/停止】,点击即可。
注意
只有状态是已停止的队列,才能进行删除操作,且当用户执行删除操作时,系统会检查当前队列的存量任务是否都执行完毕。
若存在未运行结束的任务,则不能删除,给出报错提示,可等待任务执行完毕后再删除,或者将任务迁移后再删除。
若不存未运行结束的任务,则可以删除。
队列删除后,底层的资源释放。