问题描述
客户使用PI7型GPU云主机,安装TESLA 驱动版本为510.47.03,运行部分多线程任务时,显卡利用率较低,耗时却较长。
可能原因
英伟达510.47.03版本的TESLA驱动默认开启了GSP。GSP全称为GPU 系统处理器 (GSP),可用于卸载 GPU 初始化和管理任务,但部分情况下开启GSP会导致掉卡或显卡利用率低,此时需要关闭GSP。
解决方法
1.禁用 GSP-RM。
sudo su -c 'echo options nvidia NVreg_EnableGpuFirmware=0 > /etc/modprobe.d/nvidia-gsp.conf'
2.启用内核。
#if ubuntu
sudo update-initramfs -u
#if centos
dracut -f
3.重新启动。
reboot
4.检查是否有效。如果 EnableGpuFirmware: 0 表示 GSP-RM 被禁用。
cat /proc/driver/nvidia/params | grep EnableGpuFirmware