安全稳定的算力底座
- 高性价比国产化算力支持。
- 大规模分布式训练支持。
- 万卡规模集群管理与实践。
多用户场景支持
- 使用标准资源组,用户可直接登录节点操作。
- 扩展资源组,为用户预装k8s集群及相应控制器,用户直接进行自定义任务创建与管理。
全流程监控与故障感知
- 训前环境健康一键检测。
- 训中多维度指标实时监控。
- 多场景故障感知与断点续训。
智算加速套件
- 高性能集合通信库提高拥塞条件下的通信性能与故障感知。
- 高性能CheckPoint框架,实现接近于0的模型状态保存时间开销。
本页目录
本页目录