操作步骤
- 登录批量计算管理控制台。
- 在控制台左侧导航栏中,选择【作业管理】。
- 单击作业名称,可查看作业的详细信息。
详情页面分为三部分:
- 作业基本信息。
- 作业执行情况,包含任务间的依赖关系,不同节点任务的执行情况。
- 任务执行详情包含任务创建出来的Pod的运行情况,镜像,创建时间等,点击Pod所在行操作栏的【查看】按钮,会弹出Pod的终端,日志和事件窗口。
小技巧
如果想在线调试分布式计算代码,可以选择给容器的启动命令设置为sleep 365d,然后进入pod的终端执行torchrun,进行代码调试。