searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

CentOS nvidia显卡驱动和docker-nvidia 安装

2023-05-09 08:49:40
528
0

一、Teala V100 显卡安装cuda 驱动

1.Centos linux 64 版本驱动下载

驱动下载地址:

2. 卸载所有的nvidia-*驱动

1)查看显卡版本

lspci | grep -i nvidia

2) 查询相关

rpm -qa|grep -i nvid|sort

3)删除相关模块

yum remove kmod-nvidia-*

4)完全卸载nvidia驱动

yum remove "*nvidia*"

3.安装驱动

1、准备工作

1)查看显卡型号

lspci |grep -i nvidia

2)禁用nouveau并重启(安装Nvidia显卡的官方驱动和系统自带的nouveau驱动冲突)

lsmod |grep nouveau

创建文件/etc/modprobe.d/blacklist-nouveau.conf
加上如下内容:

blacklist nouveau
options nouveau modset=0

然后更新,并重启机器

sudo dracut --force
reboot

查看是否禁用成功,输入

lsmod |grep nouveau

若没有输出,则表示禁用成功

 

3)安装基础依赖环境

yum -y install gcc kernel-devel kernel-headers

2、安装驱动

1)在Nvidia官网下载相应驱动
官网下载地址:https://www.nvidia.cn/Download/index.aspx?lang=cn

下载成功后上传至Linux服务起,如/opt目录下,进入下载的驱动所在目录执行安装

cd /opt
chmod +x NVIDIA-Linux-x86_64-470.94.run
sh NVIDIA-Linux-x86_64-470.94.run -no-opengl-files -no-nouveau-check

报错:ERROR: Unable to find the kernel source tree for the currently running kernel.

ERROR: Unable to load the 'nvidia-drm' kernel module.

uname -r #查看使用的版本

Cd /usr/src/kernels/ #查看内核号

sh NVIDIA-Linux-x86_64-460.106.00.run -no-opengl-files -no-nouveau-check --kernel-source-path=/usr/src/kernels/3.10.0-1160.45.1.el7.x86_64/ -k $(uname -r)

想新建一个docker的时候报错docker: Error response from daemon: could not select device driver ““ with capabilities: [[gpu]]问题解决

因此要进行下一步

二、nvidia-docker 安装

由于默认安装的docker都是基于cpu版本的,如果想要配合GPU进行一些简单的部署的话,则需要安装nvidia-docker来结合使用

查询Linux系统版本的命令cat /etc/redhat-release (只适用于RedHat的linux系统)

结合官网教程,选择合适的系统版本操作:

三、修改docker 容器挂载目录

磁盘挂载

1 创建分区:     fdisk /dev/sdb

2 写入系统 : mkfs.ext4 /dev/sdb

3 挂载:   

mkdir /data # 如果存在此步省略

mount /dev/sdb /data014

设置开机自动挂载vim /etc/fstab # 然后在内容结尾处增加一行(注意文件类型要对应):

/dev/sdb /data01 ext4 defaults 0

docker更新挂载目录

docker默认存储位置在/var/lib/docker目录下,该路径一般挂载在系统盘下,通常该盘比较小,容易导致系统盘磁盘占满,所以可以修改下docker的存储位置。

1. 查看docker的路径: docker info | grep "Docker Root Dir" 默认情况下在/var/lib/docker

2. 清理docker缓存磁盘:docker system prune 该命令清理磁盘,删除关闭的容器、无用的数据卷和网络,以及dangling镜像(即无tag的镜像)。

3. 停止docker服务:systemctl stop docker 一定要停止后再迁移

4. 迁移/var/lib/docker到新盘: cp -r /var/lib/docker /data01/

5. 新建一个devicemapper.conf配置文件: mkdir -p /etc/systemd/system/docker.service.d/

6. 在 devicemapper.conf 写入: vi /etc/systemd/system/docker.service.d/devicemapper.conf

[Service]
ExecStart=
ExecStart=/usr/bin/dockerd --graph=/data01/docker
do

7.刷新重启docker服务:

systemctl daemon-reload

systemctl restart docker

 

 

0条评论
0 / 1000
f****n
2文章数
0粉丝数
f****n
2 文章 | 0 粉丝
f****n
2文章数
0粉丝数
f****n
2 文章 | 0 粉丝
原创

CentOS nvidia显卡驱动和docker-nvidia 安装

2023-05-09 08:49:40
528
0

一、Teala V100 显卡安装cuda 驱动

1.Centos linux 64 版本驱动下载

驱动下载地址:

2. 卸载所有的nvidia-*驱动

1)查看显卡版本

lspci | grep -i nvidia

2) 查询相关

rpm -qa|grep -i nvid|sort

3)删除相关模块

yum remove kmod-nvidia-*

4)完全卸载nvidia驱动

yum remove "*nvidia*"

3.安装驱动

1、准备工作

1)查看显卡型号

lspci |grep -i nvidia

2)禁用nouveau并重启(安装Nvidia显卡的官方驱动和系统自带的nouveau驱动冲突)

lsmod |grep nouveau

创建文件/etc/modprobe.d/blacklist-nouveau.conf
加上如下内容:

blacklist nouveau
options nouveau modset=0

然后更新,并重启机器

sudo dracut --force
reboot

查看是否禁用成功,输入

lsmod |grep nouveau

若没有输出,则表示禁用成功

 

3)安装基础依赖环境

yum -y install gcc kernel-devel kernel-headers

2、安装驱动

1)在Nvidia官网下载相应驱动
官网下载地址:https://www.nvidia.cn/Download/index.aspx?lang=cn

下载成功后上传至Linux服务起,如/opt目录下,进入下载的驱动所在目录执行安装

cd /opt
chmod +x NVIDIA-Linux-x86_64-470.94.run
sh NVIDIA-Linux-x86_64-470.94.run -no-opengl-files -no-nouveau-check

报错:ERROR: Unable to find the kernel source tree for the currently running kernel.

ERROR: Unable to load the 'nvidia-drm' kernel module.

uname -r #查看使用的版本

Cd /usr/src/kernels/ #查看内核号

sh NVIDIA-Linux-x86_64-460.106.00.run -no-opengl-files -no-nouveau-check --kernel-source-path=/usr/src/kernels/3.10.0-1160.45.1.el7.x86_64/ -k $(uname -r)

想新建一个docker的时候报错docker: Error response from daemon: could not select device driver ““ with capabilities: [[gpu]]问题解决

因此要进行下一步

二、nvidia-docker 安装

由于默认安装的docker都是基于cpu版本的,如果想要配合GPU进行一些简单的部署的话,则需要安装nvidia-docker来结合使用

查询Linux系统版本的命令cat /etc/redhat-release (只适用于RedHat的linux系统)

结合官网教程,选择合适的系统版本操作:

三、修改docker 容器挂载目录

磁盘挂载

1 创建分区:     fdisk /dev/sdb

2 写入系统 : mkfs.ext4 /dev/sdb

3 挂载:   

mkdir /data # 如果存在此步省略

mount /dev/sdb /data014

设置开机自动挂载vim /etc/fstab # 然后在内容结尾处增加一行(注意文件类型要对应):

/dev/sdb /data01 ext4 defaults 0

docker更新挂载目录

docker默认存储位置在/var/lib/docker目录下,该路径一般挂载在系统盘下,通常该盘比较小,容易导致系统盘磁盘占满,所以可以修改下docker的存储位置。

1. 查看docker的路径: docker info | grep "Docker Root Dir" 默认情况下在/var/lib/docker

2. 清理docker缓存磁盘:docker system prune 该命令清理磁盘,删除关闭的容器、无用的数据卷和网络,以及dangling镜像(即无tag的镜像)。

3. 停止docker服务:systemctl stop docker 一定要停止后再迁移

4. 迁移/var/lib/docker到新盘: cp -r /var/lib/docker /data01/

5. 新建一个devicemapper.conf配置文件: mkdir -p /etc/systemd/system/docker.service.d/

6. 在 devicemapper.conf 写入: vi /etc/systemd/system/docker.service.d/devicemapper.conf

[Service]
ExecStart=
ExecStart=/usr/bin/dockerd --graph=/data01/docker
do

7.刷新重启docker服务:

systemctl daemon-reload

systemctl restart docker

 

 

文章来自个人专栏
文章 | 订阅
0条评论
0 / 1000
请输入你的评论
0
0