CPFS(Cloud Parallel File Storage)是完全托管、可扩展的并行文件存储系统,针对高性能计算场景的性能要求进行了深度优化。以下是对CPFS的详细解析,探讨其如何通过并行文件存储加速AI创新。
一、CPFS的核心优势
-
高性能:
- 提供对数据毫秒级的访问和百万级IOPS的数据读写请求。
- 在实际应用中,CPFS展示了每秒27TB的吞吐能力、2亿IOPS以及极低的时延。
- 通过软硬件的紧密结合,充分利用计算侧GPU服务器上智能网卡的能力,对存储的传输协议和通道实施协议硬件卸载及性能调优,确保每个GPU节点都能达到高性能表现。
-
高可扩展性:
- 单集群最大可扩展至16384个节点,提供高性能、高可扩展性、低时延的分布式文件存储服务。
- 文件系统的容量空间得到了显著扩展,单个文件系统的容量扩容能力提升了11倍。
- 支持在单个GPU节点上开启多个容器来分割计算资源,每个容器都可以挂载独有的CPFS文件系统。
-
数据安全与稳定:
- 防止非授权访问,特别是在多租户环境中,确保所有对数据的操作都必须在客户拥有并授权的前提下进行。
- 通过内部的红蓝对抗演练、加固措施以及对代码的严格测试与优化,提升产品安全性。
二、CPFS在AI场景下的应用
-
AI大模型训练:
- 所有应用和算力都原生生长在容器化环境中,CPFS提供了对容器化应用场景下挂载密度的灵活适应性。
- 在超大规模训练场景下,CPFS能快速完成checkpoint读写,加速AI训练。例如,在千卡规模下,数据集的加载吞吐达到数百GB/s,checkpoint写入吞吐近百GB/s。
-
数据集加载:
- AI大模型训练需要加载大规模数据集,CPFS提供了高吞吐、低时延的数据访问能力。
- 以ChatGPT为例,从GPT-3到GPT-4,模型参数增加了十倍,而相应的数据集规模更是增长了50倍。CPFS能够应对这种数据集规模的显著增长带来的性能压力。
-
检查点存储:
- 在AI训练过程中,存在诸多不可预测的风险。若训练结果或模型未能达到预期,需要回退到之前的状态。
- CPFS提供了高效的检查点存储能力,允许客户更频繁地保存中间状态,同时又不希望这一过程占用过多时间导致GPU资源利用率下降。
三、CPFS的技术创新
-
客户端轻量化:
- 传统的并行文件系统都设计并提供了专属客户端,但专属客户端与操作系统深度绑定,限制了应用部署速度和容器的弹性能力。
- CPFS通过实现NFS协议端的轻量化,降低了使用门槛。CPFS-NFS客户端是用户态的,不依赖内核版本,支持所有主流操作系统。
-
多种挂载方式:
- 为了满足K8S弹性PV的需求,同时实现PV间严格数据隔离,CPFS支持了多种挂载方式。
- CPFS-NFS客户端与容器服务(ACK)深度集成,提供了静态存储卷挂载和动态存储卷挂载两种方式挂载CPFS存储卷。
-
全并行IO架构:
- CPFS采用全并行IO架构,数据和元数据分片存储在所有节点上。
- 单文件读写可以利用所有节点带宽,同时CPFS的弹性文件客户端可以利用近计算端缓存,进一步加速数据集和checkpoint读写。
四、CPFS的未来展望
随着AI技术的不断发展和应用场景的不断拓展,CPFS将继续发挥其高性能、高可扩展性和数据安全与稳定的核心优势。同时,CPFS也将不断进行创新和改进,以适应更加复杂和多样化的AI应用场景。例如,针对多模态技术的兴起和数据量级的显著提升,CPFS将进一步优化其文件系统架构和性能表现,以更好地支持AI大模型训练和推理等场景。
综上所述,CPFS作为并行文件存储系统,在加速AI创新方面发挥了重要作用。其高性能、高可扩展性和数据安全与稳定的核心优势以及不断的技术创新和改进使得CPFS成为AI场景下不可或缺的存储解决方案。