背景信息
nvidia-smi是NVIDIA System Management Interface的缩写,是一种用于监视和管理NVIDIA GPU的命令行工具。它提供了有关GPU的详细信息,包括GPU的使用情况、温度、电源消耗、驱动程序版本等。通过nvidia-smi,可以了解GPU的性能和健康状况,以及识别任何可能的问题。使用nvidia-smi,可以完成下列管理:
- 监视GPU的使用情况:nvidia-smi可以显示GPU的当前使用率、内存使用情况、温度和功耗等信息。这对于调试和优化GPU应用程序非常有用。
- 管理GPU的电源消耗:nvidia-smi可以显示GPU的功耗和电源限制,并允许您调整GPU的电源模式和限制,以平衡性能和功耗之间的关系。
- 检查驱动程序版本:nvidia-smi可以显示已安装的NVIDIA驱动程序的版本号,以便您了解驱动程序是否需要更新。
- 监控GPU的温度:nvidia-smi可以提供GPU的温度信息,帮助您确保GPU在安全的温度范围内运行。
前期准备
- 已开通天翼云弹性容器实例服务。
- ECI容器镜像中已安装nvidia显卡驱动。
操作步骤
下面将介绍如何在ECI实例中使用nvidia-smi工具查看GPU信息:
- 通过天翼云弹性容器实例订购页面创建ECI GPU实例。
- 选择已安装nvidia显卡驱动的容器镜像。
- 在ECI控制台管理页面进入实例详情。
- 点击“远程连接”标签,当容器连接成功后,执行nvidia-smi命令即可查看GPU信息,如下图所示: