一、背景
在产品化过程中,我们往往需要获取cpu、内存、GPU的状态信息,在获取GPU信息时往往使用nvidia-smi命令,但该命令只对PCIE插卡式GPU有效;jetson不支持nvidia-smi,可通过jtop命令查看各指标状态信息,但jtop是交互式命令,无法通过脚本和编程获取。
二、实现方法
jtop是开源的,我们可以参考jtop的源码实现来获取GPU相关指标。
进入主画面可以看到非常详细的信息,包括这个系统的计算核心(Jetson NANO/TX1)、刷机版本(Jetpack 4.2.2[L4T 32.2.1])。接着显示4个CPU核的执行状态(现状),虽然没有 System Monitor 的历史曲线,但很多时候“现状”比“历史”更加重要。
再往下依次显示Mem(系统内存)、Imm、Swp、EMC相关信息,然后再接着就看到GPU使用率(0%)以及现状主频(76MHz)、磁盘已使用空间/总容量等。
最下面还显示出UpT(持续开机时间)、Jetson_clockes状态、工作模式(5W)、各主要传感、设备的温度,甚至编解码器(ENC/DEC)的使用状态都为我们提供出来。
三、 实现原理
以获取GPU资源为例,官方实现原理分为如下步骤:
1. 检测集成显卡(integrated GPU)
以英伟达产品为例,会检查以下几个路径:
/dev/nvhost-gpu
/dev/nvhost-power-gpu
对上述文件,如果存在,将做以下解析工作:
(1)解析名称:{item}/device/of_node/name
(2)解析GPU规格:name in ['gv11b', 'gp10b', 'ga10b', 'gpu']:
2. 检测DGPU(独立显卡)
以英伟达产品为例,会检查以下几个路径:
/dev/nvidiactl
/dev/nvgpu-pci"
3. 对具体指标文件进行加载,如
(1)获取GPU频率:cat /sys/class/devfreq/17000000.gv11b/cur_freq
(2)获取GPU使用率:cat /sys/devices/17000000.gv11b/load
源码官方:https://github.com/rbonghi/jetson_stats/blob/master/jtop/core/gpu.py