插件简介

CCE AI套件（NVIDIA GPU）是支持在容器中使用GPU显卡的设备管理插件，集群中使用GPU节点时必须安装此插件。

约束与限制

下载的驱动必须是后缀为“.run”的文件。
仅支持Nvidia Tesla驱动，不支持GRID驱动。
安装或重装插件时，需要保证驱动下载链接正确且可正常访问，插件对链接有效性不做额外校验。
gpu-beta插件仅提供驱动的下载及安装脚本执行功能，插件的状态仅代表插件本身功能正常，与驱动是否安装成功无关。

安装插件

步骤 1 登录CCE控制台，单击集群名称进入集群，在左侧导航栏中选择“插件管理”，在右侧找到 gpu-beta ，单击“安装”。

步骤 2 配置驱动链接地址。


                    注意
                     如果下载链接为公网地址，如nvidia官网地址https://us.download.nvidia.com/tesla/396.37/NVIDIA-Linux-x86_64-396.37.run，各GPU节点均需要绑定EIP。获取驱动链接方法请参考获取驱动链接-公网地址。
若下载链接为OBS上的链接，无需绑定EIP 。获取驱动链接方法请参考获取驱动链接-OBS地址。
请确保Nvidia驱动版本与GPU节点适配。
更改驱动版本后，需要重启节点才能生效。

步骤 3 单击“安装”，安装gpu-beta插件的任务即可提交成功。

验证插件

插件安装完成后，在GPU节点及调度了GPU资源的容器中执行nvidia-smi命令，验证GPU设备及驱动的可用性。

GPU节点

cd /opt/cloud/cce/nvidia/bin && ./nvidia-smi

容器

cd /usr/local/nvidia/bin && ./nvidia-smi

能正常返回GPU信息，说明设备可用，插件安装成功。

图片2.png

获取驱动链接-公网地址

步骤 1 登录CCE控制台。

步骤 2 创建节点，在节点规格处选择要创建的GPU节点，选中后下方显示的信息中可以看到节点的GPU显卡型号。

查看显卡型号

图片3.png

步骤 3 登录到https://www.nvidia.com/Download/Find.aspx?lang=cn网站。

步骤 4 如下图所示，在“NVIDIA驱动程序下载”框内选择对应的驱动信息。其中“操作系统”必须选 Linux 64-bit 。

参数选择

图片4.png

步骤 5 驱动信息确认完毕，单击“搜索”按钮，会跳转到驱动信息展示页面，该页面会显示驱动的版本信息，单击“下载”到下载页面。

驱动信息

图片5.png

步骤 6 获取驱动软件链接方式分两种：

方式一：如上图，在浏览器的链接中找到路径为url=/tesla/396.37/NVIDIA-Linux-x86_64-396.37.run的路径，补齐全路径https://us.download.nvidia.com/tesla/396.37/NVIDIA-Linux-x86_64-396.37.run该方式节点需要绑定EIP 。
方式二：如下图，单击“下载”按钮下载驱动，然后上传到OBS，获取软件的链接，该方式节点不需要绑定EIP。

获取链接

图片6.png

获取驱动链接-OBS地址

步骤 1 将驱动上传到对象存储服务OBS中，并将驱动文件设置为公共读。

说明

节点重启时会重新下载驱动进行安装，请保证驱动的OBS桶链接长期有效。

步骤 2 在OBS管理控制台左侧导航栏选择“对象存储”。

步骤 3 在桶列表单击待操作的桶，进入“概览”页面。

步骤 4 在左侧导航栏，单击“对象”。

步骤 5 选中目标对象，在对象详情页复制驱动链接。

图片7.png

版本记录

CCE插件版本记录

插件版本 支持的集群版本
1.2.15 /v1.(15|17|19|21|23).*/
1.2.11 /v1.(15|17|19|21).*/
1.2.10 /v1.(15|17|19|21).*/
1.2.9 /v1.(15|17|19|21).*/
1.2.2 /v1.(15|17|19).*/
1.2.1 /v1.(15|17|19).*/
1.1.13 /v1.(13|15|17).*/
1.1.11 /v1.(15|17).*/

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

云容器引擎

云容器引擎

插件简介

约束与限制

安装插件

验证插件

获取驱动链接-公网地址

获取驱动链接-OBS地址

版本记录

插件版本	支持的集群版本
1.2.15	/v1.(15\|17\|19\|21\|23).*/
1.2.11	/v1.(15\|17\|19\|21).*/
1.2.10	/v1.(15\|17\|19\|21).*/
1.2.9	/v1.(15\|17\|19\|21).*/
1.2.2	/v1.(15\|17\|19).*/
1.2.1	/v1.(15\|17\|19).*/
1.1.13	/v1.(13\|15\|17).*/
1.1.11	/v1.(15\|17).*/

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

云容器引擎

云容器引擎

插件简介

约束与限制

安装插件

验证插件

获取驱动链接-公网地址

获取驱动链接-OBS地址

版本记录