问题描述
G6型或PI2型规格的GPU弹性云主机中,执行nvidia-smi命令查看GPU设备状态或使用情况时,有如下问题:
- 单卡GPU弹性云主机上,报错“No devices were found”。
- 多卡GPU弹性云主机上显示卡数目不全,执行“lspci|grep -i nvidia“显示GPU卡数目正常。
可能原因
NVIDIA Tesla T4 GPU默认使用并开启GSP Firmware,导致GPU无法识别。
处理方法
-
执行以下命令,移除NVIDIA内核模块。
rmmod nvidia_drm rmmod nvidi_modeset rmmod nvidia
-
执行以下命令,关闭GSP Firmware开关,并载入NVIDIA内核模块。
modprobe nvidia NVreg_EnableGpuFirmware=0 modprobe nvidia_drm modprobe nvidia_modeset
以上操作只对当前运行的系统生效。如需持久化设置,需要在配置文件/etc/modprobe.d/nvidia.conf中增加一行“options nvidia NVreg_EnableGpuFirmware=0“。
- 如果问题依然存在,请联系客服,由技术支持人员处理。