问题描述
GPU弹性云主机中,执行nvidia-smi命令查看GPU设备状态或使用情况时,报错无法执行指定的程序。具体显示如下:
可能原因
GPU弹性云主机的GPU驱动状态异常。
问题排查
不同的操作系统执行的命令有所不同,以CentOS系统为例,查看安装驱动时的内核版本:
find /usr/lib/modules -name nvidia.ko
执行uname -r查看当前内核版本:
如果安装驱动的内核版本跟当前内核版本不一致,则是导致此问题的原因。
处理方法
方法一:重启系统,选择安装GPU驱动时的内核版本启动系统。
方法二:在现有内核版本的基础上,重新安装驱动。
(1) 执行 nvidia-uninstall
命令,卸载驱动。或者执行sh NVIDIA-Linux-x86_64-******.run --uninstall
,卸载驱动。
(2) 重新安装GPU驱动。操作指导请参考:安装GPU驱动.