问题描述
用户执行nvidia-smi命令时遇到报错:Failed to initialize NVML: Driver/library version mismatch。
可能原因
用户在升级或者降级NVIDIA驱动时如果未按照升级或降级NVIDIA驱动进行操作,导致之前加载的旧的驱动未卸载干净,并与新的驱动冲突,引发驱动未正常加载。
解决方案
此问题原因是NVIDIA 内核驱动版本与系统驱动不一致,可参考以下步骤解决。
- 查看内核加载了哪些涉及GPU的模块。
lsmod | grep nvidia
- 查看下有哪些进程使用了 nvidia*。
sudo lsof -n -w /dev/nvidia*
- 卸载对应的GPU在内核中的模块或者启动的进程。
rmmod nvidia_drm rmmod nvidia_modeset rmmod nvidia kill -9 xxx
- 重启nvidia-smi。
nvidia-smi