提供高效算力服务,天翼云智能计算平台“云骁”驱动企业创新发展
2023-07-23
近日,科技部发布首批国家新一代人工智能公共算力开放创新平台的批复通知。随着元宇宙、数字孪生、人脸识别、智能语音播报等智慧应用的逐渐普及,以及超大规模人工智能模型的兴起以及海量数据的爆发,各行业对智能算力的需求与日俱增。根据《2022-2023中国人工智能计算力发展评估报告》统计数据显示,2022年我国智能算力规模达到268百亿亿次/秒(EFLOPS),超过通用算力规模,预计未来5年中国智能算力规模的年复合增长率将达52.3%,同期通用算力规模的复合增长率为18.5%。
而智能算力的生产、分发、调度离不开人工智能公共算力开放创新平台等基础设施的支撑。同时,我国算力分布不均衡,各地的智算中心、超算中心需要联动,促进东部地区灵活使用西部的算力,推动全国一体化协同创新体系快速形成。
在此背景下,天翼云推出智能计算平台“云骁”,提供智算、超算、通算多样化算力服务,这也是运营商首个云智超一体化算力平台。依托天翼分布式架构云底座和海量计算、存储、网络资源,“云骁”可提供软硬一体的解决方案,实现高阶算力供给、资源高效利用、多种能力服务一站式提供,助力行业数字化转型、降低企业创新成本。
基于云网融合优势以及天翼云多年的技术沉淀,“云骁”在算力底座、算效提升、算力异构、算力布局四个方面取得了新突破。具体而言,借助天翼云4.0底座,“云骁”打造了高性能算力底座,包括GPU裸金属及云主机、HPFS并行文件系统、RDMA网络等底座能力,统一支持智算和超算服务;针对超大规模分布式集群训练进行一系列技术优化,实现高达80%以上超高线性加速比算效提升;支持多种主流AI框架与高性能计算任务管理器,支持多种CPU与GPU的多样化异构算力;支持智能算力全网分级部署,构建从中心到区域,再到边缘的多级训练推理体系。
目前,“云骁”已在多个行业场景落地应用,赋能企业快速发展。在汽车制造行业,吉利汽车基于天翼云智能计算平台“云骁”,构建起HPC专属云资源池,大幅提升了算力速度、存储空间、网络响应,其计算速度能达到每秒千万亿次,能计算普通PC机和服务器不能完成的大型、复杂课题。目前,吉利汽车平均做一次模拟测试的时间从10小时缩短到6小时,HPC排队队列的减少,有效增加了方案验证的数量,快速输出结果,也保障了决策的快速输出。
此外,天翼云智能计算平台还为智能语音服务、人工智能研究机构等客户,进行训练和微调大模型。“云骁”提供分布式训练一站式解决方案,融合GPU拓扑感知、亲和调度、高IO并行文件系统等底层技术,支持多种模型训练方式,兼容主流AI框架,扩展定制业界主流分布式训练方案,提升训练数据量,缩短模型交付周期;提供定制化算法框架,采用代码生成等方式,内置提供丰富的算子,简化数据集导入、特征工程处理、预训练模型依赖等步骤,提升AI训练开发效率;针对大模型分布式环境下的训练,显存优化方面使用ZeRo等技术,打破显存与内存的隔阂,降低训练的显存开销
凭借技术创新和在资源、平台、应用等核心能力方面的表现,日前天翼云智能计算平台率先顺利通过中国信息通信研究院《可信算力服务 平台技术能力要求 第3部分:智算平台》评估,成为业内首批通过该项评估的云服务商。
随着数字化经济发展和产业变革持续推进,天翼云将加强科技创新,不断提高云网算力技术与服务水平,完善智算基础设施,与业界伙伴携手探索算力应用模式,赋能千行百业数智化发展,全面助推数字中国建设。