产品背景

大模型训练过程往往比较长，根据业界数据，平均约两天，大模型训练会中断一次，经常遇到的问题例如：

断点续训过程需要排查节点、隔离节点、重新启动上一次CKPT，浪费了资源和训练时间，是大模型训练的重要痛点之一。针对这一问题，平台提供了断点续训能力并支持配置客户需要的策略。

断点续训.png

断点续训

平台对节点故障、集群故障、程序故障等多种场景，支持故障感知、故障定位、故障修复。目前支持PyTorch、Mindspore框架。

支持以下故障类型：

优雅容错功能可以在NPU芯片级别的故障发生时，优先尝试恢复故障芯片（需要在支持的场景下），从而实现训练任务的进程级别的重启，无需触发集群的重调度来切换新的节点再进行训练。

优雅容错有以下优点：

目前优雅容错支持PyTorch、Mindspore，支持以下故障类型：

所有故障处理级别

故障级别	故障类型	说明	重调度处理	优雅容错处理
L1	NotHandleFault	对业务无影响的故障，无需处理	暂不处理	暂不处理
L2	RestartRequest	影响业务执行，需要重新执行业务请求	隔离设备，进行任务重调度	推理场景重执行推理请求，训练场景重新执行训练业务
L3	RestartBusiness	影响业务执行，需要重新执行业务	隔离设备，进行任务重调度	重新执行业务
L4	FreeRestartNPU	影响业务执行，待芯片空闲时需复位芯片	隔离设备，进行任务重调度	复位芯片后重新执行业务
L5	RestartNPU	影响业务执行，需立即复位芯片	隔离设备，进行任务重调度	复位芯片后重新执行业务
L6	SeparateNPU	无法恢复，需要隔离设备	隔离设备，进行任务重调度	隔离设备，进行任务重调度