MFU提升
在平台上使用1152卡对Llama3.1-405B进行预训练和微调,通过数据加速、镜像加速、3D并行等加速策略,实现MFU的提升:
MFU - 芯片算力(%):达到44.185
MFU - CUBE算力(%):达到47.064
环境配置:
服务器型号 | Atlas 800T A2 |
---|---|
NPU型号 | 910B2(64GB) |
驱动版本 | 23.0.3 |
CANN | 8.0.RC2 |
Python | 3.10.14 |
MindSpore | 2.3.1 |
Mindformers | dev分支(5bfebf+diff.patch) |
训练配置
Epochs | 100 |
---|---|
Learning Rate | 6.e-5 |
Global Batch Size | 2048 |
Batch Size | 1 |
Micro Batch Size | 256 |
Sequence Length | 4096 |
Data Parallel (DP) | 8 |
Model Parallel (MP) | 8 |
Pipeline Parallel (PP) | 18 |
max_device_memory | 54GB |
jit_level | O2 |
训练结果
吞吐量(tokens/s/p) | 61.962 |
---|---|
MFU - 芯片算力(%) | 44.185 |
MFU - CUBE算力(%) | 47.064 |
线性加速比提升
在慧聚平台测试模型训练规模的性能线性比,分别测试1k,2k,4k,6k,9k规模并作对比如下(以千卡规模为基准):
训练规模(卡数) | 吞吐量(tokens/s/p) | MFU(芯片/CUBE)(%) | 线性比(%) |
---|---|---|---|
1024 | 407.701 | 47.847 / 50.965 | 100 |
2048 | 403.415 | 47.344 / 50.429 | 98.95 |
4096 | 400.734 | 47.030 / 50.094 | 98.29 |
6144 | 393.577 | 46.190 / 49.200 | 96.54 |
9216 | 366.915 | 43.061/ 45.867 | 90.00 |