CentOS nvidia显卡驱动和docker-nvidia 安装-天翼云开发者社区

一、Teala V100 显卡安装cuda 驱动

1.Centos linux 64 版本驱动下载

驱动下载地址：

https://www.nvidia.com/Download/Find.aspx

**2. 卸载所有的nvidia-*驱动**

（1）查看显卡版本

lspci | grep -i nvidia

（2）查询相关

rpm -qa|grep -i nvid|sort

（3）删除相关模块

yum remove kmod-nvidia-*

（4）完全卸载nvidia驱动

yum remove "*nvidia*"

3.安装驱动

1、准备工作

1）查看显卡型号

lspci |grep -i nvidia

2）禁用nouveau并重启（安装Nvidia显卡的官方驱动和系统自带的nouveau驱动冲突）

lsmod |grep nouveau

创建文件/etc/modprobe.d/blacklist-nouveau.conf
加上如下内容:

blacklist nouveau
options nouveau modset=0

然后更新，并重启机器

sudo dracut --force
reboot

查看是否禁用成功，输入

lsmod |grep nouveau

若没有输出，则表示禁用成功

3)安装基础依赖环境

yum -y install gcc kernel-devel kernel-headers

2、安装驱动

1）在Nvidia官网下载相应驱动
官网下载地址：https://www.nvidia.cn/Download/index.aspx?lang=cn

下载成功后上传至Linux服务起，如/opt目录下，进入下载的驱动所在目录执行安装

cd /opt
chmod +x NVIDIA-Linux-x86_64-470.94.run
sh NVIDIA-Linux-x86_64-470.94.run -no-opengl-files -no-nouveau-check

报错：ERROR: Unable to find the kernel source tree for the currently running kernel.

ERROR: Unable to load the 'nvidia-drm' kernel module.

uname -r #查看使用的版本

Cd /usr/src/kernels/ #查看内核号

sh NVIDIA-Linux-x86_64-460.106.00.run -no-opengl-files -no-nouveau-check --kernel-source-path=/usr/src/kernels/3.10.0-1160.45.1.el7.x86_64/ -k $(uname -r)

想新建一个docker的时候报错docker: Error response from daemon: could not select device driver ““ with capabilities: [[gpu]]问题解决

因此要进行下一步

二、nvidia-docker 安装

由于默认安装的docker都是基于cpu版本的，如果想要配合GPU进行一些简单的部署的话，则需要安装nvidia-docker来结合使用。

查询Linux系统版本的命令：cat /etc/redhat-release （只适用于RedHat的linux系统）

结合官网教程，选择合适的系统版本操作：

https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/install-guide.html#docker

三、修改docker 容器挂载目录

磁盘挂载

1 创建分区: fdisk /dev/sdb

2 写入系统 : mkfs.ext4 /dev/sdb

3 挂载:

mkdir /data # 如果存在此步省略

mount /dev/sdb /data014

设置开机自动挂载vim /etc/fstab # 然后在内容结尾处增加一行（注意文件类型要对应）：

/dev/sdb /data01 ext4 defaults 0

docker更新挂载目录

docker默认存储位置在/var/lib/docker目录下，该路径一般挂载在系统盘下，通常该盘比较小，容易导致系统盘磁盘占满，所以可以修改下docker的存储位置。

1. 查看docker的路径： docker info | grep "Docker Root Dir" 默认情况下在/var/lib/docker

2. 清理docker缓存磁盘：docker system prune 该命令清理磁盘，删除关闭的容器、无用的数据卷和网络，以及dangling镜像(即无tag的镜像)。

3. 停止docker服务：systemctl stop docker 一定要停止后再迁移

4. 迁移/var/lib/docker到新盘： cp -r /var/lib/docker /data01/

5. 新建一个devicemapper.conf配置文件： mkdir -p /etc/systemd/system/docker.service.d/

6. 在 devicemapper.conf 写入： vi /etc/systemd/system/docker.service.d/devicemapper.conf

[Service]
ExecStart=
ExecStart=/usr/bin/dockerd --graph=/data01/docker
do

7.刷新重启docker服务：

systemctl daemon-reload

systemctl restart docker

一、Teala V100 显卡安装cuda 驱动

1.Centos linux 64 版本驱动下载

驱动下载地址：

https://www.nvidia.com/Download/Find.aspx

**2. 卸载所有的nvidia-*驱动**

（1）查看显卡版本

lspci | grep -i nvidia

（2）查询相关

rpm -qa|grep -i nvid|sort

（3）删除相关模块

yum remove kmod-nvidia-*

（4）完全卸载nvidia驱动

yum remove "*nvidia*"

3.安装驱动

1、准备工作

1）查看显卡型号

lspci |grep -i nvidia

2）禁用nouveau并重启（安装Nvidia显卡的官方驱动和系统自带的nouveau驱动冲突）

lsmod |grep nouveau

创建文件/etc/modprobe.d/blacklist-nouveau.conf
加上如下内容:

blacklist nouveau
options nouveau modset=0

然后更新，并重启机器

sudo dracut --force
reboot

查看是否禁用成功，输入

lsmod |grep nouveau

若没有输出，则表示禁用成功

3)安装基础依赖环境

yum -y install gcc kernel-devel kernel-headers

2、安装驱动

1）在Nvidia官网下载相应驱动
官网下载地址：https://www.nvidia.cn/Download/index.aspx?lang=cn

下载成功后上传至Linux服务起，如/opt目录下，进入下载的驱动所在目录执行安装

cd /opt
chmod +x NVIDIA-Linux-x86_64-470.94.run
sh NVIDIA-Linux-x86_64-470.94.run -no-opengl-files -no-nouveau-check

报错：ERROR: Unable to find the kernel source tree for the currently running kernel.

ERROR: Unable to load the 'nvidia-drm' kernel module.

uname -r #查看使用的版本

Cd /usr/src/kernels/ #查看内核号

sh NVIDIA-Linux-x86_64-460.106.00.run -no-opengl-files -no-nouveau-check --kernel-source-path=/usr/src/kernels/3.10.0-1160.45.1.el7.x86_64/ -k $(uname -r)

想新建一个docker的时候报错docker: Error response from daemon: could not select device driver ““ with capabilities: [[gpu]]问题解决

因此要进行下一步

二、nvidia-docker 安装

由于默认安装的docker都是基于cpu版本的，如果想要配合GPU进行一些简单的部署的话，则需要安装nvidia-docker来结合使用。

查询Linux系统版本的命令：cat /etc/redhat-release （只适用于RedHat的linux系统）

结合官网教程，选择合适的系统版本操作：

https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/install-guide.html#docker

三、修改docker 容器挂载目录

磁盘挂载

1 创建分区: fdisk /dev/sdb

2 写入系统 : mkfs.ext4 /dev/sdb

3 挂载:

mkdir /data # 如果存在此步省略

mount /dev/sdb /data014

设置开机自动挂载vim /etc/fstab # 然后在内容结尾处增加一行（注意文件类型要对应）：

/dev/sdb /data01 ext4 defaults 0

docker更新挂载目录

docker默认存储位置在/var/lib/docker目录下，该路径一般挂载在系统盘下，通常该盘比较小，容易导致系统盘磁盘占满，所以可以修改下docker的存储位置。

1. 查看docker的路径： docker info | grep "Docker Root Dir" 默认情况下在/var/lib/docker

2. 清理docker缓存磁盘：docker system prune 该命令清理磁盘，删除关闭的容器、无用的数据卷和网络，以及dangling镜像(即无tag的镜像)。

3. 停止docker服务：systemctl stop docker 一定要停止后再迁移

4. 迁移/var/lib/docker到新盘： cp -r /var/lib/docker /data01/

5. 新建一个devicemapper.conf配置文件： mkdir -p /etc/systemd/system/docker.service.d/

6. 在 devicemapper.conf 写入： vi /etc/systemd/system/docker.service.d/devicemapper.conf

[Service]
ExecStart=
ExecStart=/usr/bin/dockerd --graph=/data01/docker
do

7.刷新重启docker服务：

systemctl daemon-reload

systemctl restart docker

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

CentOS nvidia显卡驱动和docker-nvidia 安装

一、Teala V100 显卡安装cuda 驱动

1.Centos linux 64 版本驱动下载

**2. 卸载所有的nvidia-*驱动**

3.安装驱动

1、准备工作

2、安装驱动

二、nvidia-docker 安装

三、修改docker 容器挂载目录

CentOS nvidia显卡驱动和docker-nvidia 安装

一、Teala V100 显卡安装cuda 驱动

1.Centos linux 64 版本驱动下载

**2. 卸载所有的nvidia-*驱动**

3.安装驱动

1、准备工作

2、安装驱动

二、nvidia-docker 安装

三、修改docker 容器挂载目录

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

CentOS nvidia显卡驱动和docker-nvidia 安装

一、Teala V100 显卡安装cuda 驱动

1.Centos linux 64 版本驱动下载

2. 卸载所有的nvidia-*驱动

3.安装驱动

1、准备工作

2、安装驱动

二、nvidia-docker 安装

三、修改docker 容器挂载目录

CentOS nvidia显卡驱动和docker-nvidia 安装

一、Teala V100 显卡安装cuda 驱动

1.Centos linux 64 版本驱动下载

2. 卸载所有的nvidia-*驱动

3.安装驱动

1、准备工作

2、安装驱动

二、nvidia-docker 安装

三、修改docker 容器挂载目录

**2. 卸载所有的nvidia-*驱动**

**2. 卸载所有的nvidia-*驱动**