场景一:自动驾驶训练
场景说明
自动驾驶的每一个业务阶段都会涉及到 AI 算法和算力的参与,机器视觉、深度学习、传感器技术等均在自动驾驶领域发挥着重要的作用。随着自动驾驶的快速发展,现在每台测试车每天将产生数十 TB 数据,随之而来就是要面临诸多存储挑战:
- 海量小文件元数据压力大
- 存储性能局限
- 数据管理困难
产品优势
并行文件服务 HPFS 通过可扩展的元数据架构可支持几十亿级别的文件数量,同时提升海量文件并发访问的性能,满足自动驾驶海量数据处理的业务需求和性能要求,充分适配上层 AI 算力。
场景二:影视渲染
场景说明
在渲染场景中,设计师将素材上传至工作室挂载的并行文件系统中,即可给渲染所需的数百台高性能计算服务器提供并发的数据访问,极大提升整体工作效率。
产品优势
并行文件 HPFS 为影视渲染场景提供最高千万级 IOPS 和 TBps 吞吐,支持在线扩容,业务无需中断。
影视渲染中,文件系统主要用于多个客户端中共享文件场景,客户端的应用程序并发访问文件是高频操作,并行文件服务HPFS通过分布式文件锁保证文件一致性,同时大幅提高多客户端读写同一文件的性能。
场景三:AI训练与推理
场景说明
AI 智算平台建设中,在以下场景中会遇到存储挑战:
- 海量数据的存储和处理,包括采集导入、清洗、转换、标注、共享等,这里对存储的要求主要是高吞吐和大容量。
- 模型开发,主要场景包括实验管理、交互式开发和效果评估等。对存储的要求更多集中在 POSIX 兼容性、可靠性等方面。
- 模型训练的主要场景,一是训练数据的读取,二是为了容错做的 checkpoint 的保存和加载。数据集的部分就是要尽量读得快,减少计算对 I/O 的等待,而 checkpoint 主要要求高吞吐、减少训练中断的时间。
- 模型推理,需要把训练完的模型快速分发部署到线上,产生业务效果。而这个过程会高频、反复发生,要求高并发、高吞吐。
将 HPFS 、NAS 等多个存储产品组合与 GPU 云主机、弹性裸金属等计算集群无缝对接。通过容器化部署服务实现资源弹性调度,提供超高吞吐和超高 IOPS 能力,支持混合云、线下和云上部署,快速构建 AI 基础环境。
产品优势
并行文件服务 HPFS 助力客户构建高速大模型训练平台,根据不同 AI 业务流程特点,调用不同的存储服务能力,满足预处理、训练、仿真等各阶段对数据存储能力的要求。
HPFS 能够显著提升训练数据读取和 checkpoint 回写速度,降低数据处理的延迟,使得客户在 GPU 故障时更快将模型恢复到之前的检查点,提高企业 GPU 卡的利用率,更高效地将模型精度达到生产水平并推向市场。HPFS 帮助企业降低在 AI 训练中的成本投入,实现更高的投资回报,满足企业在 AI 领域中对存储性能的高要求。