gpu-beta插件是支持在容器中使用GPU设备的管理插件,仅支持Nvidia驱动。
- 安装gpu-beta插件的集群中必须包含GPU节点。
- 下载的驱动必须是后缀为“.run”的文件。
须知:
- 若下载链接为公网地址,如Nvidia官网,各GPU节点均需要绑定EIP。
- 若下载链接为对象存储上的链接,无需绑定EIP 。
- 请确保Nvidia驱动版本与GPU节点适配。
- 更改驱动版本后,需要重启节点才能生效。
步骤 1 登录到https://www.nvidia.cn/Download/Find.aspx?lang=cn网站。
步骤 2 如下图所示,在“NVIDIA驱动程序下载”框内选择对应的驱动信息。其中“操作系统”必须选Linux 64-bit。
图-Nvidia驱动参数选择
步骤 3 驱动信息确认完毕,单击“搜索”按钮,会跳转到驱动信息展示页面,该页面会显示驱动的版本信息如下图,单击“下载”到下载页面。
步骤 4 获取驱动软件链接方式分两种:
- 方式一:如下图,在浏览器的链接中找到路径为url=/tesla/396.37/NVIDIA-Linux-x86_64-396.37.run的路径,补齐全路径https://us.download.nvidia.com/tesla/396.37/NVIDIA-Linux-x86_64-396.37.run该方式节点需要绑定EIP 。
- 方式二:如下图,单击“下载”按钮下载驱动,然后上传到对象存储,获取软件的链接,该方式节点不需要绑定EIP。
步骤 1 登录CCE控制台,在左侧导航栏中选择“插件管理”。在“插件市场”页签下,单击gpu-beta插件下的“安装插件”。
步骤 2 在安装插件页面,选择安装的集群和插件版本,单击“下一步:规格配置”。
步骤 3 在规格配置页面,配置驱动链接地址。如何获取驱动链接,请参考获取驱动链接-公网地址。
例如,nvidia396.37版本驱动链接:https://us.download.nvidia.com/tesla/396.37/NVIDIA-Linux-x86_64-396.37.run。
步骤 4 单击“安装”。
安装完成后,在当前集群的各GPU节点上会安装该插件实例。
步骤 1 登录CCE控制台,在左侧导航栏中选择“插件管理”,在“插件实例”页签下,选择对应的集群,单击“gpu-beta”下的“升级”。
说明:
- 如果升级按钮处于冻结状态,则说明当前插件版本是最新的版本,不需要进行升级操作。
- 升级“gpu-beta”插件时,会替换原先节点上的旧版本的“gpu-beta”插件,安装最新版本的“gpu-beta”插件以实现功能的快速升级。
步骤 2 在基本信息页面选择插件版本,单击“下一步”。
步骤 3 参考安装插件中参数说明配置参数后,单击“升级”即可升级“gpu-beta”插件。
步骤 4 重启节点(必须)。
在ECS控制台重启节点。登录官网,选择“控制台”,选择弹性云主机所在区域,选择“计算 > 弹性云主机ECS”,在弹性云主机列表中找到目标节点,并单击“操作”列下的“更多 > 重启”。
步骤 1 登录CCE控制台,在左侧导航栏中选择“插件管理”。在“插件实例”页签下,选择对应的集群,单击“gpu-beta”下的“卸载”。
步骤 2 在弹出的窗口中,单击“是”,可卸载该插件。
说明:卸载gpu-beta插件不会卸载驱动。若重新安装了驱动,需重启所有GPU节点。