安装CTFlashCkpt
源码安装CTFlashCkpt:
- python包下载地址:https://huabei-2.zos.ctyun.cn/huabei2-cwai-images/ctflashckpt.tar
- 下载后进入到工程根目录
-
sh scripts/build_wheel.sh build
-
pip install dist/eagle-0.1.0-py3-none-any.whl
至此,CTFlashCkpt的软件包安装完成,使用原生pytorch的话,已经可以使用了(具体使用方法见“使用CTFlashCkpt”章节)。
CTFlashCkpt扩展使用:
如果需要为英伟达 Megatron-LM或华为ModelLink-megatrton的存储加速的话,还分别需要下面的步骤:
英伟达 Megatron-LM
- 下载Megatron-LM代码,可以参考 https://github.com/NVIDIA/Megatron-LM
- 将CTFlashCkpt工程内scripts文件夹内的replace_megatron_checkpointing_methods.sh 拷贝到nvida Megatron-LM的根目录,假设是/app/Megatron
-
cd /app/Megatron-LM && git checkout core_r0.5.0 && sh replace_megatron_checkpointing_methods.sh && pip3 install -e .
华为ModelLink
- 下载ModelLink代码,可以参考 https://gitee.com/ascend/ModelLink/blob/master/examples/README.md
- 将CTFlashCkpt工程内scripts文件夹内的replace_megatron_checkpointing_methods.sh 拷贝到昇腾 ModelLink的根目录,假设是/app/ModelLink
-
cd /app/ModelLink && sh replace_megatron_checkpointing_methods.sh && pip3 install -e .