本文主要介绍超聚变自研XC382网卡在超聚变2U机型上进行整机稳定性测试过程中,pcie链接XC382网卡丢失的分析过程及结论。
1、问题现象:
DC测试过程中lspci检查网卡信息发现网卡未链接到
2、问题分析
1.日志分析
-
- BIOS日志分析:BIOS 异常开机和正常开机Log 进行对比,和OCP2相关的有以下差异。
分析可知,LINKSTS 状态异常为0x1081,正常为0x7083。异常时刻,Link Width 带宽 x8已经识别成功,但是速率LINKSPEED还是GEN1。可判定为网卡的PCIe建链在polling 阶段发生了异常。
-
- 硬件CPLD 寄存器分析:分析可知OCP电源相关寄存器正常,主板电源供电正常。
OCP 相关CPLD寄存器说明:
-
- OS dmesg日志分析:
分析可知系统共有5张Mellanox CX5的卡,其中4张标卡使用的固件版本是16/26.35.2000,出问题的OCP 卡使用的固件版本是16.32.1010
2.现场实验分析
-
- 网卡其它功能分析:NCSI可正常建链,光模块插拔后正常亮灯。证明出问题时电源正常,网卡芯片的NCSI、光模块功能正常。说明网卡部分功能是正常的,本身的芯片没有完全挂死。
-
- 重启恢复:尝试OS下重启,pcie 重新建链,仍无法恢复服务器。推测不断电的情况下,网卡的pcie相关模块已处于挂死状态,不响应CPU的PCIe的建链请求。
-
- 通知式热插拔恢复:尝试BMC Web 用按钮按一次弹出,按一次插入,模拟网卡插拔,可恢复。说明此问题可以通过远程网卡执行上下电解决。
3.PCIe信号质量排查
-
- 数字眼图分析:PCIe数字眼图均大于1000mV,信号质量无异常。
- IO margin Tool 分析:PCIe Timing和Voltage的Margin裕量充足,无异常。
4.供应商技术交流分析
问题现象与供应商交流。经联合分析,初步定位和16.32.1010的固件版本有关。建议更新固件版本,进行验证测试。
3.问题结论
16.32.1010版本固件pcie相关问题,导致稳定性测试过程网卡掉卡。