问题描述
GPU云主机发生掉卡现象,比如申请4卡的计算加速型GPU云主机,但是nvidia-smi显示的显卡数少于4张。
具体现象:
执行以下命令查看dmesg日志:
dmesg |grep -i nvrm
查找相关字段发现如下错误:
NVRM:GPU 0000:00:07.0: RmInitAdapter failed!....
NVRM:GPU 0000:00:07.0: rm init-adapter failed,device minor numb….
可能原因
宿主机硬件故障。
解决方案
如遇到该问题请提工单联系运维处理。