CTFlashCkpt是由云骁一体化智算加速平台提供的针对大模型训练场景提供的高性能checkpoint框架,实现接近于0的模型状态保存时间开销 ,将训练阻塞时间降低到最小。目前CTFlashCkpt支持原生pytorch训练、英伟达训练框架Megatron-LM和华为昇腾ModelLink训练框架,本文为您介绍CTFlashCkpt相关技术原理和接入操作。
背景信息
在大规模分布式训练中,由于软硬件故障的影响,任务可能会遭遇中断或需要重启。为了应对这种情况,通常会采用定期保存Checkpoint的方法来记录和恢复训练进度。由于Checkpoint本身的耗时与模型的大小成正比,随着大模型参数量和训练数据量的增长,训练的时间开销也在不断增长。例如,对于百亿、千亿参数的大模型,单次Checkpoint的保存时间开销通常在几分钟到十几分钟之间。并且使用英伟达发布的Megatrong-LM或者原生的Pytorch训练模型的时候,需要中断训练进程,造成算力资源的浪费。因此,在训练过程中需要以一种可靠的方式来减少时间消耗和算力浪费。
CTFlashCkpt采用异步存储机制加快训练速度,减少训练中断带来的影响,提升GPU的有效使用率。