事件名称 | 事件ID | 事件级别 | 事件说明 | 处理建议 | 事件影响 |
---|---|---|---|---|---|
GPU SRAM存在 Uncorrectable ECC告警 | SRAMUncorrectableEccError | 重要 | GPU卡SRAM出现Uncorrectable ECC Error硬件故障。 | 如果业务受损,请提交工单。 | 可能GPU硬件问题导致SRAM故障,导致业务异常退出 |
主机重启 | osReboot | 重要 | 物理机实例重启。 包括: 1. 在管理控制台进行重启操作 2. 通过API接口下发重启指令 |
1. 业务应用做成高可用。 2. 主机恢复后,确认业务是否自动恢复。 |
业务中断 |
异常重启 | serverReboot | 重要 | 物理机实例异常重启。 包括: 1. 操作系统异常导致重启 2. 主机硬件故障导致重启 |
1. 业务应用做成高可用。 2. 主机恢复后,确认业务是否自动恢复。 |
业务中断 |
主机关机 | osShutdown | 重要 | 物理机实例关机。 包括: 1. 在管理控制台进行关机操作 2. 通过API接口下发关机指令 |
1. 业务应用做成高可用。 2. 主机恢复后,确认业务是否自动恢复。 |
业务中断 |
异常关机 | serverShutdown | 重要 | 物理机实例异常关机。 包括: 1. 主机异常下电 2. 主机硬件故障导致关机 |
1. 业务应用做成高可用。 2. 主机恢复后,确认业务是否自动恢复。 |
业务中断 |
网络中断 | linkDown | 重要 | 物理机网络中断。 包括: 1. 主机异常关机、重启 2. 交换机故障引起的网络中断 3. 网关节点故障引起的中断 |
1. 业务应用做成高可用。 2. 主机恢复后,确认业务是否自动恢复。 |
业务中断 |
PCIE异常 | pcieError | 重要 | 物理机PCIe设备硬件故障。 包括: 1. 主板故障 2. PCIe设备故障 |
1. 业务应用做成高可用。 2. 主机恢复后,确认业务是否自动恢复。 |
影响网络或硬盘读写业务 |
硬盘故障 | diskError | 重要 | 物理机磁盘故障。 包括: 1. 硬盘背板故障 2. 硬盘本身故障 |
1. 业务应用做成高可用。 2. 主机恢复后,确认业务是否自动恢复。 |
影响数据读写业务或主机无法启动 |
云存储连接异常 | storageError | 重要 | 物理机云硬盘链接异常。 包括: 1. SDI卡故障 2. 远端存储故障 |
1. 业务应用做成高可用。 2. 主机恢复后,确认业务是否自动恢复。 |
影响数据读写业务或主机无法启动 |
GPU存在infoROM告警 | gpuInfoROMAlarm | 重要 | GPU可能存在硬件问题,导致驱动读取不到inforom信息。 | 业务可以继续使用该GPU卡,不敏感业务可以继续使用,敏感业务请提交工单处理。 | 对业务暂时没有影响,当GPU硬件出现ECC故障时,可能无法自动完成故障页隔离,导致业务受损。 |
GPU发生double bit ECC告警 | doubleBitEccError | 重要 | GPU硬件存在double bit ECC故障。 | 如果业务受损停止,则重启业务恢复。 如果业务无法启动,建议尝试重启虚拟机恢复业务。 如果业务仍然无法恢复,请提交工单。 |
可能会造成业务中断,故障页隔离后业务可继续正常使用GPU。 |
GPU隔离页过多告警 | gpuTooManyRetiredPagesAlarm | 重要 | GPU硬件存在过多ECC隔离页。 | 如果业务受损,请提交工单。 | GPU硬件存在过多ECC故障,可能频繁影响业务运行。 |
GPU A100 硬件发生ECC告警 | gpuA100EccAlarm | 重要 | GPU卡出现ECC硬件故障。 | 如果业务受损停止,则重启业务恢复。 如果业务无法启动,建议尝试重启虚拟机恢复业务。 如果业务仍然无法恢复,请提交工单。 |
可能会造成业务中断,故障页隔离后业务可继续正常使用GPU。 |
GPU ECC内存页隔离失败告警 | eccPageRetirementRecordingFailure | 重要 | GPU硬件存在ECC故障,驱动自动隔离这些页时失败。 | 如果业务受损停止,则重启业务恢复。 如果业务无法启动,建议尝试重启虚拟机恢复业务。 如果业务仍然无法恢复,请提交工单。 |
可能会造成业务中断,故障页隔离隔离失败,可能导致业务无法使用GPU。 |
GPU ECC页隔离告警 | eccPageRetirementRecordingEvent | 一般 | 存在ECC硬件错误,发生内存页自动隔离。 | 如果业务受损停止,则重启业务恢复。 如果业务无法启动,建议尝试重启虚拟机恢复业务。 如果业务仍然无法恢复,请提交工单。 |
一般随ECC故障告警出现,单独出现不影响业务。 |
GPU single bit ECC过多告警 | highSingleBitEccErrorRate | 重要 | ECC硬件存在过高ECC single bit错误。 | 如果业务受损停止,则重启业务恢复。 如果业务无法启动,建议尝试重启虚拟机恢复业务。 如果业务仍然无法恢复,请提交工单。 |
single bit的错误能够自动恢复,一般不影响GPU相关应用程序。 |
GPU驱动掉卡告警 | gpuDriverLinkFailureAlarm | 重要 | GPU链路正常,NVIDIA驱动找不到GPU硬件。 | 建议尝试重启虚拟机恢复业务。如果业务仍然无法恢复,请提交工单。 | 一般驱动问题导致找不到对应位置的GPU。 |
GPU卡链路故障告警 | gpuPcieLinkFailureAlarm | 重要 | GPU链路异常,通过lspci无法查看GPU硬件信息。 | 如果业务受损,请提交工单。 | 硬件问题导致GPU卡链路异常,驱动无法使用GPU。 |
虚拟机GPU丢卡告警 | vmLostGpuAlarm | 重要 | 虚拟机实际有的GPU卡数量比规格里应分配的GPU卡数量少。 | 如果业务受损,请提交工单。 | 虚拟机GPU卡丢失。 |
GPU显存页告警 | gpuMemoryPageFault | 重要 | GPU显存页发生故障,故障可能由应用、驱动或硬件引起。 | 如果业务受损,请提交工单。 | 可能GPU硬件问题导致显存故障,导致业务异常退出 |
GPU图像引擎异常告警 | graphicsEngineException | 重要 | GPU图像引擎发生故障,可能由应用、驱动或硬件引起。 | 如果业务受损,请提交工单。 | 可能GPU硬件问题导致图像引擎故障,导致业务异常退出。 |
GPU温度过高告警 | highTemperatureEvent | 重要 | GPU硬件温度过高。 | 如果业务受损,请提交工单。 | GPU温度超过温度阈值,可能会引起GPU卡性能下降 |
GPU NVLINK链路错误告警 | nvlinkError | 重要 | NVLINK的链路出现硬件故障。 | 如果业务受损,请提交工单。 | NVLINK链路故障,影响业务使用GPU nvlink能力。 |
nvidia-smi命令卡住 | nvidiaSmiHangEvent | 重要 | nvidia-smi命令超时,该命令可能卡住 | 如果业务受损,请提交工单。 | 可能是命令执行过程中,触发驱动问题,导致命令卡住,同时可能出现业务使用驱动报错问题。 |