以下操作以Ubuntu 16.04 64bit操作系统,GPU实例安装CUDA 10.1对应的Tesla驱动为例。
说明Linux内核版本和驱动的版本存在兼容性关系。如果驱动安装失败,请检查驱动安装日志(安装日志通常位于/var/log/nvidia-installer.log)。 日志中如提示失败原因为驱动编译错误,例如 get_user_pages参数不匹配,说明当前内核版本与驱动版本不兼容,请选择合适的内核版本和驱动版本重新安装。建议内核版本与驱动版本发布时间不要相差过大。
- 登录云主机。
- 根据操作系统选择命令更新系统软件。
− Ubuntu
更新软件安装源:apt-get -y update
安装必要程序:apt-get install gcc g++ make
− CentOS
更新软件安装源:yum -y update --exclude=kernel* --exclude=centos-release* --exclude=initscripts*
安装必要程序:yum install -y kernel-devel-uname -r
gcc gcc-c++
- 下载NVIDIA驱动包。
单击NVIDIA驱动(Official Drivers | NVIDIA)下载根据实例的类型,选择驱动版本。单击“SEARCH”。
如下图
- 根据需求选择驱动版本,以下操作以选择Tesla 418.67为例。
图 选择驱动版本
- 单击需要下载的驱动,进入“TESLA DRIVER FOR LINUX X64”界面,单击“DOWNLOAD”。
- 复制下载链接地址。
图 复制下载链接地址
- 在云主机内部执行如下命令进行下载。
wget 复制的链接地址
例如:wget http://us.download.nvidia.com/tesla/418.67/NVIDIA-Linux-x86_64-418.67.run
图 获取安装包
- 执行以下命令安装驱动。
sh NVIDIA-Linux-x86_64-418.67.run
- (可选)如果执行驱动安装命令后出现如下提示信息,需要禁用nouveau驱动。
图 禁用nouveau驱动
a. 执行以下命令,查看是否安装Nouveau驱动。
lsmod | grep nouveau
- 如果回显信息中包含Nouveau驱动信息,说明Nouveau驱动已安装,则需要禁用Nouveau驱动,请执行步骤9.b。
- 如果回显信息没有Nouveau驱动信息,说明Nouveau驱动已被禁用,请执行步骤9.d。
b. 执行如下命令编辑blacklist.conf文件。
如果没有“/etc/modprobe.d/blacklist.conf”文件,请新建一个。
vi /etc/modprobe.d/blacklist.conf
添加如下语句添加至文件结尾。
blacklist nouveau
options nouveau modeset=0
c. 执行以下命令,备份并新建一个initramfs。
- Ubuntu系统:
sudo update-initramfs -u - CentOS系统:
mv /boot/initramfs-(uname -r).img /boot/initramfs-(uname -r).img.bak
dracut -v /boot/initramfs-(uname -r).img (uname -r)
d. 执行以下命令,重启云主机。
reboot
- 根据安装提示,连续三次选择“OK”。完成驱动的安装。
图 NVIDIA驱动安装完成
- 执行命令设置systemd。
systemctl set-default multi-user.target
- 执行reboot,重启云主机。
- 登录云主机,执行nvidia-smi,如果回显信息中包含了已安装的驱动版本,说明驱动安装成功。
图 查看NVIDIA驱动的版本