一、Teala V100 显卡安装cuda 驱动
1.Centos linux 64 版本驱动下载
驱动下载地址:
2. 卸载所有的nvidia-*驱动
(1)查看显卡版本
lspci | grep -i nvidia
(2) 查询相关
rpm -qa|grep -i nvid|sort
(3)删除相关模块
yum remove kmod-nvidia-*
(4)完全卸载nvidia驱动
yum remove "*nvidia*"
3.安装驱动
1、准备工作
1)查看显卡型号
lspci |grep -i nvidia
2)禁用nouveau并重启(安装Nvidia显卡的官方驱动和系统自带的nouveau驱动冲突)
lsmod |grep nouveau
创建文件/etc/modprobe.d/blacklist-nouveau.conf
加上如下内容:
blacklist nouveau
options nouveau modset=0
然后更新,并重启机器
sudo dracut --force reboot
查看是否禁用成功,输入
lsmod |grep nouveau
若没有输出,则表示禁用成功
3)安装基础依赖环境
yum -y install gcc kernel-devel kernel-headers
2、安装驱动
1)在Nvidia官网下载相应驱动
官网下载地址:https://www.nvidia.cn/Download/index.aspx?lang=cn
下载成功后上传至Linux服务起,如/opt目录下,进入下载的驱动所在目录执行安装
cd /opt
chmod +x NVIDIA-Linux-x86_64-470.94.run
sh NVIDIA-Linux-x86_64-470.94.run -no-opengl-files -no-nouveau-check
报错:ERROR: Unable to find the kernel source tree for the currently running kernel. ERROR: Unable to load the 'nvidia-drm' kernel module. |
uname -r #查看使用的版本 Cd /usr/src/kernels/ #查看内核号 sh NVIDIA-Linux-x86_64-460.106.00.run -no-opengl-files -no-nouveau-check --kernel-source-path=/usr/src/kernels/3.10.0-1160.45.1.el7.x86_64/ -k $(uname -r) |
想新建一个docker的时候报错docker: Error response from daemon: could not select device driver ““ with capabilities: [[gpu]]问题解决 因此要进行下一步 |
二、nvidia-docker 安装
由于默认安装的docker都是基于cpu版本的,如果想要配合GPU进行一些简单的部署的话,则需要安装nvidia-docker来结合使用。
查询Linux系统版本的命令:cat /etc/redhat-release (只适用于RedHat的linux系统)
结合官网教程,选择合适的系统版本操作:
三、修改docker 容器挂载目录
磁盘挂载
1 创建分区: fdisk /dev/sdb
2 写入系统 : mkfs.ext4 /dev/sdb
3 挂载:
mkdir /data # 如果存在此步省略
mount /dev/sdb /data014
设置开机自动挂载vim /etc/fstab # 然后在内容结尾处增加一行(注意文件类型要对应):
/dev/sdb /data01 ext4 defaults 0
docker更新挂载目录
docker默认存储位置在/var/lib/docker目录下,该路径一般挂载在系统盘下,通常该盘比较小,容易导致系统盘磁盘占满,所以可以修改下docker的存储位置。
1. 查看docker的路径: docker info | grep "Docker Root Dir" 默认情况下在/var/lib/docker
2. 清理docker缓存磁盘:docker system prune 该命令清理磁盘,删除关闭的容器、无用的数据卷和网络,以及dangling镜像(即无tag的镜像)。
3. 停止docker服务:systemctl stop docker 一定要停止后再迁移
4. 迁移/var/lib/docker到新盘: cp -r /var/lib/docker /data01/
5. 新建一个devicemapper.conf配置文件: mkdir -p /etc/systemd/system/docker.service.d/
6. 在 devicemapper.conf 写入: vi /etc/systemd/system/docker.service.d/devicemapper.conf
[Service]
ExecStart=
ExecStart=/usr/bin/dockerd --graph=/data01/docker
do
7.刷新重启docker服务:
systemctl daemon-reload systemctl restart docker |