智算中心建设的关键技术涉及与其建设和应用相关的各类基建、硬件、软件、算法、服务等,体现在智算中心算力基建化、算法基建化、服务智件化、设施绿色化过程中。
(一)以算力基建化为主体
以智算中心为代表的算力基础设施能够有效促进AI产业化和产业AI化,是支撑数字经济发展的重要基础底座。为了让AI真正地赋能到千行百业,并推动产业数字化转型发展,智算中心要具备对外提供高性价比、普惠、安全算力资源的能 力,使AI算力像水、电一样成为城市的公共基础资源,供政府、企业、公众自主取用。算力基建化供给成为支撑产业转型升级以及创新发展的刚性需求和必然选择。
1.面向潜在算力需求,适度超前规模化部署算力资源
数据量的爆炸式增长以及万亿参数大模型的出现,使智能算力需求呈现高速增长态势,并为算力基础设施带来巨大挑战。在数据量方面,IDC发布的《数据时代2025》预测,到2025年,全球数据量将达到175 ZB,而中国数据量的增速快于全球3%,预计到2025年将增至48.6 ZB,占全球数据圈的27.8%。在模型方面,当前1万亿参数的单体模型需要1 EFLOPS级算力(FP16)计算约50天,10万亿参数的单体模型需要10 EFLOPS 级算力(FP16)计算约50天。因此在智算中心的规划建设中,需要聚焦当前算力应用需求,同时面向未来数据量和大模型大参数量增长空间,适度超前,部署满足AI训练、AI推理等大规模计算需求的强大AI算力机组,构建算力集群,提供大规模弹性算力。
2.聚焦异构加速技术,提升高性能人工智能计算能力
自2012年以来,人工智能训练任务所需的算力每3.43个月就会翻倍,大大突破了传统以每18个月为周期实现芯片性能翻番的摩尔定律,这对人工智能计算架构的性能提出了更高的要求。AI芯片是生产算力环节的关键组件,为AI训练和AI推理输出强大、高效、易用的计算力。目前,AI芯片主要包括GPU、FPGA、ASIC、类脑芯片四大类,其中类脑芯片仍在探索阶段,因此多元异构芯片成为提升算力的关键手段。主流的人工智能计算架构是以CPU+AI芯片为主体的异构架构,通过将CPU与多种计算单元(如GPU、FPGA、ASIC等)集成, 充分融合了CPU等传统的通用计算单元和高性能专用计算单元的优点,可以同时兼顾AI模型的高效训练和精准推理能力。异构架构具有高性能、高效率、低功耗等显著优点,使AI芯片在未来人工智能算法不断迭代更新的情况下,依旧能保持较好的兼容性和可扩展性,在一定程度上延长了AI芯片的生命周期。
3.兼顾软硬一体协同,构建智算中心多元融合型架构
人工智能计算场景和计算架构的多元化要求智算中心从硬件、软件、软硬协同等层面开展优化,提供弹性、可伸缩扩展的算力聚合能力,依据不同类型智能应用对算力的不同需求,提供更高效、更便捷的算力调度能力。采用融合架构进行整体设计是智算中心的发展方向。具体而言,在硬件层面,通过硬件重构实现资源池化,结合新型超高速内外部互 连技术、池化融合、异构存储介质等,推动多元异构智能算力设施的高速互联,形成高效池化的智算中心,实现多元计 算资源高效协同;在软件层面,通过软件定义,将不同的资源池组成专业的服务器、存储、网络系统,实现重构硬件资源池的高效化、智能化管理,使智算中心的业务资源调度更为灵活、运维管理能力更强。在安全方面,智算中心可以依托隐私安全计算等技术,提供完善的隐私和数据保护解决方案,实现计算、存储、网络等多层级、全方位的资源隔离与安全防护。
(二)以算法基建化为引领
建设适度超前的算力基础设施,不仅体现在算力层面,也体现在算法层面,这是释放算力环节的关键。人工智能算法正面临着丰富化、专业化和巨量化的挑战,智算中心通过提供预置行业算法、构建预训练大模型、推进算法模型持续升级、提供专业化数据和算法服务,让更多的用户享受普适普惠的智能计算服务。
1.面向千行百业发展需求,提供多类型预置行业算法
AI落地面临开发成本、技术门槛高的难题,算法模型构建时间为3个月,同时算法还需要快速的迭代,再加上AI新算法、新理论层出不穷,行业用户的智慧转型存在着巨大的 技术壁垒。智算中心应围绕政务服务、智慧城市、智能制造、自动驾驶、语言智能等重点领域,在AI内预置实例分割、目标检测、边缘检测、图像分类、人脸识别、视频感知、自动问答、机器翻译、舆情分析、情感分析、语音识 别、协同过滤、交通路线规划等常用行业算法模型,并从软 硬件方面对行业算法做性能优化,从而帮助各行各业智慧应用加速落地,推动行业智能化转型加速。
2.面向模型即服务应用需求,构建大规模预训练AI模型
在产业AI化和数实融合的背景下,当前的行业做法是针对每一个场景都做一个模型,即“有1万个场景就有1万个模型”。然而随着以BERT、GPT-3、DALL·E、源1.0等为代表的高泛化能力和高通用性的大模型的出现,一个模型可以覆盖 众多场景。“预训练大模型+下游任务微调”的AI工程化模式已成为业内共识,层数、隐向量长度、前馈网络尺寸持续增长,参数规模迅速从亿级增长到百万亿级。在充足数据和算力的支持下,大模型可以充分学习文本、图像等数据中的特征。智算中心应通过部署大模型所需要的训练、推理和数据处理系统,构建出不同功能、不同模态的大模型(如自然语 言处理大模型、视觉大模型、多模态大模型等),从而更加快速地生产出专业的技能模型,并在更多专业场景中实现小型化、轻量化的落地运作。
3.面向可持续化发展需求,推进AI模型不断演进升级
从感知机到深度神经网络,从全连接网络到模型剪枝、知识蒸馏、注意力机制,从有监督学习、无监督学习到强化学习、自监督学习,人工智能理论算法模型在持续深化发展中。当前,人工智能算法正从单模态、有监督学习向多模 态、自监督学习演进。自监督学习无需标注数据,可以直接从无标签数据中自行学习,极大降低了人工标注成本。多模态学习更贴合人类对多感知模态的认知过程,通过学习多种模态的数据,可以突破自然语言处理和计算机视觉的界限,在图文生成、看图问答等视觉语言任务上具有更强表现。随着人工智能相关技术和应用需求的不断升级,智算中心所提供的算法模型也应持续迭代升级,与时俱进,保持算法模型的先进性。未来,人工智能算法将朝着多模态、交互式主动学习、规划、实践的方向发展,以期实现真正的认知智能。
4.面向算法高效调用需求,提供专业化开发部署支撑
智算中心除了提供深度学习、强化学习等常见AI算法模型外,还应提供专业化基础支撑和开发部署服务能力,以支撑AI 算法模型的便捷调用和部署。为了满足算法模型对大规模高质量海量数据集的需求,智算中心应搭载海量数据清洗系 统,提供全流程自动化数据处理系统,实现智能高效的数据处理和过滤。为了满足AI算法模型高效训练和使用的需求,智算中心在基础支撑层面应部署分布式训练框架、高性能推理框架,在开发部署层面应提供数据管理、模型开发、模型训 练、模型管理等关键模块,以模型API服务、领域模型、工具包、会话式开放框架、开发者社区等形式,形成强大的AI算法服务支撑能力。
(三)以服务智件化为依托
随着人工智能应用场景持续拓展和开发用户不断普及,对智能计算需求大幅提升、算法模型功能不断强化的同时,人工智能算法开发和模型训练正在从专业化、高门槛向泛在化、易用型转变,智算中心的发展将由传统的硬件、软件向 “智件”升级拓展。“智件”是指智算中心提供人工智能推广应用的中间件产品和服务。传统用户进行人工智能应用时,除了需要提供业务数据,还需提供算法模型并进行代码 开发,“智件”的构建可以改变这种服务模式,通过可视化操作界面,以及低代码开发甚至无代码开发的模式,为用户提供功能丰富、使用便捷的人工智能算力调度、算法供给和个性化开发服务,实现“带着数据来、拿着成果走”的效果。
1.提供多元算力调度服务,实现算力调度“智件化”
算力是智算中心提供的核心产品和服务。面向不同用户的不同算力需求,智算中心应提供“智件化”算力服务,让用户无需关注底层算力芯片和技术细节,通过用户交互界面,选择业务场景类别、算法模型大小等参数,获得不同算力需求下的计算时间预估、服务费用测算等针对性算力服务方案。一方面,算力服务虚拟化,弱化底层算力芯片供给的技术差异性,为用户提供标准化的算力供给服务。通过抽象芯片架构并融合算力特性将提供底层计算能力的GPU、FPGA、ASIC等AI芯片进行统一管理和调度,以PFLOPS、EFLOPS作为计算能力单位向用户提供算力服务,让用户可以更便捷地调度算力,进行AI应用部署。另一方面,算力服务协同调度,要强化对外的算力调度与服务能力。在构建全国一体化大数据 中心协同创新体系和“东数西算”工程的背景和要求下,智算中心可以作为算力基础单元,通过云服务方式融入全国算力调度体系中,满足更大范围、更强算力调度需求。
2.提供简便算法模型服务,实现算法供给“智件化”
人工智能是一门极其复杂的学科,要求应用开发者不仅要有扎实的理论功底,还要有高超的编程技术,门槛极高。算法模型是人工智能应用的灵魂,也是智算中心提供服务的主要输出物。从计算智能到感知智能,再到认知智能,人工智能的应用模型越来越复杂,从公共服务到社会治理再到产业发展,人工智能的应用需求越来越广泛,对人工智能模型和算法的要求也越来越高。为了缓解人工智能模型训练成本高、技术门槛高的问题,智算中心应加强算法供给服务模式的创新,开发可视化操作界面,用户通过API、模块化代码即 可获得所需的人工智能应用效果,减轻代码开发压力,使用户无需关注算法和模型本身的复杂技术细节,只需聚焦相应 业务领域的业务逻辑和数据就能实现人工智能应用。用户可以基于“智件化”的算法模型进行探索和创新,开发出适用于各种场景的新型智能应用。
3.提供开放生态环境服务,实现供需对接“智件化”
人工智能场景日趋丰富,应用需求和技术供给个性化特征明显,为满足部分用户和场景对于人工智能算法优化、系统优化服务的个性化需求,智算中心应构建开放合作生态,加大数据资源供给,聚焦先进的技术并适配典型场景应用。一方面,加大数据供给,数据是人工智能应用的基础,智算中心应打造数据共享,推动计算机视觉、自然语言处理、重点行业领域等高质量公开数据集的汇聚,为用户人工智能应用提供增值性数据服务。另一方面,开放发展生态,围绕满足不同用户个性化人工智能应用需求,智算中心应将其计算、资源和算法对外开放,聚集行业内领先企业的力量,及时响应用户个性化需求,提升智算中心技术能力的同时形成新的产业和生产力。
(四)以设施绿色化为支撑
能耗是衡量智算中心发展的重要维度之一。“碳达 峰、碳中和”目标背景下,国家和地方持续出台政策,进一步规范数据中心的能耗和电能利用效率(PUE)。为了进一步降低智算中心能耗,设施绿色化是智算中心建设的必然选择。设施绿色化主要包括设备节能化、能源供给绿色化等方面。
1.采用先进节能技术,全面降低智算中心能耗
制冷设备和IT设备是智算中心主要的能耗来源。液冷技术采用冷却液和工作流体对发热设备进行冷却,利用高比热容的液体代替空气,提升了制冷效率,降低制冷能耗。液冷技术是智算中心制冷的主要发展趋势。数据中心采用全栈布局液冷,冷板式液冷、热管式液冷、浸没式液冷等先进液冷技术,构建包含一次侧二次侧液冷循环、CDU等的智算中心液 冷整体解决方案,可以进一步降低能耗、降低PUE,实现绿色化。液冷智算中心采用余热回收技术,可以为智算中心自身以及相关区域供暖,进一步提升能源利用效率。此外,智算中心采用高压直流、集中供电等高效供配电系统、能效环境集成检测等高效辅助系统、智能监控运维系统等绿色管理系统可以进一步降低能耗。
2.采用绿色清洁能源,从源头上实现绿色低碳
一方面,智算中心的大部分业务负载,特别是企业负载, 在时间上主要集中于白天工作时段,与光伏、风电的主要发电时段匹配性较高,无需过多储能与调峰,使得智算中心在运用光伏、风电等绿色电力方面具有天然优势。采用绿色电力供给的智算中心综合运用线性规划、混合整数规划、启发式算法等多种能耗管理方法,可以在降低碳排放的同时也节约电价成本。智算中心采用优化调度与需求响应控制策略,还可作为需求侧可调载荷参与电力需求侧响应,不仅提升智算中心自身能源利用效率,而且提升新型电力系统需求侧资源优化配置效率。另一方面,智算中心所在的建筑物、园区空间大,可以充分利用,发展屋顶光伏、园区风电等可再生能源发电设施,优化能源绿色供给格局。应用分布式光伏发电、分布式燃气供能等技术可以提升智算中心园区绿色化比例。小型智算中心还可以利用模块化氢燃料电池、太阳能板房等技术优化能源供给格局。