searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

DPU智能网卡的硬件设计思考

2023-11-22 02:31:35
214
0

一、引言

       伴随着数据中心的高速发展,通信能力和计算能力成为数据中心基础设施中的两个重要的发展方向。近期以来AI人工智能的高速发展,计算能力和通信能力的需求更为突出。DPU的提出背景就是应对数据中心的数据量和复杂性的指数级增长带来的性能瓶颈。

       为应对这些挑战,DPU智能网卡应运而生,围绕数据处理提供网络、存储、计算、安全、管理等数据中心基础设施虚拟化服务。它通过对数据面和控制面的卸载、加速、管理,解决了计算瓶颈的问题,为客户业务提供了更多的宝贵通用计算资源。但当前DPU处在百花齐放的阶段,各个厂家根据自身对DPU的理解,推出了各自的方案。由于软硬件的实现方案各异,导致了DPU系统的发展标准性、统一性较差。从而带来了较高的开发、运营的成本。

二、概述

       DPU系统硬件规范是基于当前DPU与服务器、DPU与上层软件之间没有标准的硬件方案而提出的。此规范通过对DPU的硬件、固件、结构、散热、质量等多个维度进行标准定义,以保证DPU网卡和服务器及上层软件之间在不断更新过程中的通用性、一致性,为开发、上线和运维减少时间、增加稳定性、降低总体拥有成本。

DPU系统硬件规范主要包含以下几个方面:

1.DPU供电电源设计的标准化

       由于当前DPU内除为网络、存储、安全管理提供卸载功能的芯片外还会处理器芯片及带外管理芯片,因此DPU对功耗的需求是大于通用的传统网卡;再者,由于DPU应用场景的原因,需要实现裸金属更快的敏捷交付,DPU网卡需要在服务器的关机状态下仍然可以工作,基于以上两点原因,DPU的电源需要独立设计,与服务器的主电分开设计,保证DPU的电源可控制;而且由于DPU的功耗比较高,金手指无法提供足够的电源,需要引入辅助电源进行供电。

  • DPU额外的辅助电源供电

    网卡对外提供micro-ATX辅助电源连接器,通过电源线缆连接至服务器12V AUX连接器;同时服务器PCIe金手指上P12V也会给DPU提供12V电源。

    举例说明:12V辅助电源连接器(4Pin)示意图(具体电源针脚的数量依据DPU网卡所需功耗而定):

    12V辅助电源连接器Pin定义:
  • DPU网卡电源连接架构

       由于DPU网卡需要在服务器关机的情况下仍然可以工作,因此服务器需要在进入S5状态下可以识别到DPU智能网卡在位并开启DPU所需要的所         有电源。

       举例说明:DPU电源连接拓扑图(具体电源连接拓扑依据服务器和DPU的供电情况而定):

图3 DPU电源连接拓扑图

 

2.DPU边带信号的设计标准化

  • DPU网卡带外信号的连接器

        推荐采用20pin的带外信号连接器,如下图所示:

   

  • DPU网卡带外信号的连接器Pin定义

             在进行DPU智能网卡和服务器适配的过程中,需要定制带外信号的互联线缆,此线缆主要包括如下信号NCSI、UART(连接到服务器的BMC UART)、USB(连接到服务器的BMC USB)。

表2 带外信号连接器Pin定义

  • DPU网卡带外信号的金手指Pin定义

        DPU网卡与服务器之间除了上文所说的通过带外信号连接器和服务器的进行交互以外,还会通过PCIe插槽上面的I2C链路和服务器的BMC进  行 交互,DPU的BMC会通过IPMI over SMBUS和服务器通信。

图5 服务器和DPU I2C拓扑图

3.DPU板级管理接口的标准化

 由于DPU网卡上具有板级的管理芯片,可以用来对DPU卡进行管理和监控,并且与服务器的BMC进行交互,因此需要以下方面的标准化工作:

1.常规监控功能:包括DPU板卡和主芯片的sensor监控(温度,电压,电流,功耗,设备健康状态)、设备资产信息管理等;

2.日志记录:SEL日志、IDL日志、审计日志、维护日志等完备的日志种类,并支持一键收集全部日志;

3.故障诊断:某些特殊故障如PCIE、IERR等,BMC会收集故障信息,并且根据对应的寄存器分析出可能的故障原因;

4.BMC主备镜像:BMC提供双flash冗余设计,提升系统运行的稳定性;

5.看门狗功能: BMC定期监控BMC内部关键进程、服务,如果检测到异常,自动修复关键进程。包括IPMI /KVM/Virtual Media等;

6.固件管理:支持升级DPU的固件。

4.DPU结构设计的标准化

1.建议服务器预留标准的全高全长双宽的PCIe插槽给智能网卡。随着后续在智能网卡上卸载的业务更多,性能更强,智能网卡需要一个更大的尺寸去满足功能的增多和性能的增强;

2.边带信号线缆在服务器中的走线需要结合实际配置评估;

3.散热设计需要结合服务器实际配置评估;

 

0条评论
0 / 1000
y****n
4文章数
1粉丝数
y****n
4 文章 | 1 粉丝
y****n
4文章数
1粉丝数
y****n
4 文章 | 1 粉丝
原创

DPU智能网卡的硬件设计思考

2023-11-22 02:31:35
214
0

一、引言

       伴随着数据中心的高速发展,通信能力和计算能力成为数据中心基础设施中的两个重要的发展方向。近期以来AI人工智能的高速发展,计算能力和通信能力的需求更为突出。DPU的提出背景就是应对数据中心的数据量和复杂性的指数级增长带来的性能瓶颈。

       为应对这些挑战,DPU智能网卡应运而生,围绕数据处理提供网络、存储、计算、安全、管理等数据中心基础设施虚拟化服务。它通过对数据面和控制面的卸载、加速、管理,解决了计算瓶颈的问题,为客户业务提供了更多的宝贵通用计算资源。但当前DPU处在百花齐放的阶段,各个厂家根据自身对DPU的理解,推出了各自的方案。由于软硬件的实现方案各异,导致了DPU系统的发展标准性、统一性较差。从而带来了较高的开发、运营的成本。

二、概述

       DPU系统硬件规范是基于当前DPU与服务器、DPU与上层软件之间没有标准的硬件方案而提出的。此规范通过对DPU的硬件、固件、结构、散热、质量等多个维度进行标准定义,以保证DPU网卡和服务器及上层软件之间在不断更新过程中的通用性、一致性,为开发、上线和运维减少时间、增加稳定性、降低总体拥有成本。

DPU系统硬件规范主要包含以下几个方面:

1.DPU供电电源设计的标准化

       由于当前DPU内除为网络、存储、安全管理提供卸载功能的芯片外还会处理器芯片及带外管理芯片,因此DPU对功耗的需求是大于通用的传统网卡;再者,由于DPU应用场景的原因,需要实现裸金属更快的敏捷交付,DPU网卡需要在服务器的关机状态下仍然可以工作,基于以上两点原因,DPU的电源需要独立设计,与服务器的主电分开设计,保证DPU的电源可控制;而且由于DPU的功耗比较高,金手指无法提供足够的电源,需要引入辅助电源进行供电。

  • DPU额外的辅助电源供电

    网卡对外提供micro-ATX辅助电源连接器,通过电源线缆连接至服务器12V AUX连接器;同时服务器PCIe金手指上P12V也会给DPU提供12V电源。

    举例说明:12V辅助电源连接器(4Pin)示意图(具体电源针脚的数量依据DPU网卡所需功耗而定):

    12V辅助电源连接器Pin定义:
  • DPU网卡电源连接架构

       由于DPU网卡需要在服务器关机的情况下仍然可以工作,因此服务器需要在进入S5状态下可以识别到DPU智能网卡在位并开启DPU所需要的所         有电源。

       举例说明:DPU电源连接拓扑图(具体电源连接拓扑依据服务器和DPU的供电情况而定):

图3 DPU电源连接拓扑图

 

2.DPU边带信号的设计标准化

  • DPU网卡带外信号的连接器

        推荐采用20pin的带外信号连接器,如下图所示:

   

  • DPU网卡带外信号的连接器Pin定义

             在进行DPU智能网卡和服务器适配的过程中,需要定制带外信号的互联线缆,此线缆主要包括如下信号NCSI、UART(连接到服务器的BMC UART)、USB(连接到服务器的BMC USB)。

表2 带外信号连接器Pin定义

  • DPU网卡带外信号的金手指Pin定义

        DPU网卡与服务器之间除了上文所说的通过带外信号连接器和服务器的进行交互以外,还会通过PCIe插槽上面的I2C链路和服务器的BMC进  行 交互,DPU的BMC会通过IPMI over SMBUS和服务器通信。

图5 服务器和DPU I2C拓扑图

3.DPU板级管理接口的标准化

 由于DPU网卡上具有板级的管理芯片,可以用来对DPU卡进行管理和监控,并且与服务器的BMC进行交互,因此需要以下方面的标准化工作:

1.常规监控功能:包括DPU板卡和主芯片的sensor监控(温度,电压,电流,功耗,设备健康状态)、设备资产信息管理等;

2.日志记录:SEL日志、IDL日志、审计日志、维护日志等完备的日志种类,并支持一键收集全部日志;

3.故障诊断:某些特殊故障如PCIE、IERR等,BMC会收集故障信息,并且根据对应的寄存器分析出可能的故障原因;

4.BMC主备镜像:BMC提供双flash冗余设计,提升系统运行的稳定性;

5.看门狗功能: BMC定期监控BMC内部关键进程、服务,如果检测到异常,自动修复关键进程。包括IPMI /KVM/Virtual Media等;

6.固件管理:支持升级DPU的固件。

4.DPU结构设计的标准化

1.建议服务器预留标准的全高全长双宽的PCIe插槽给智能网卡。随着后续在智能网卡上卸载的业务更多,性能更强,智能网卡需要一个更大的尺寸去满足功能的增多和性能的增强;

2.边带信号线缆在服务器中的走线需要结合实际配置评估;

3.散热设计需要结合服务器实际配置评估;

 

文章来自个人专栏
服务器硬件设计
4 文章 | 1 订阅
0条评论
0 / 1000
请输入你的评论
1
0