弹性云主机
事件名称 | 事件ID | 事件级别 | 事件说明 | 处理建议 | 事件影响 |
---|---|---|---|---|---|
删除虚拟机 | deleteServer | 重要 | 删除云服务器。 包括: 1. 在管理控制台进行删除操作。 2. 通过API接口下发删除指令。 |
确认删除操作是否为主动执行。 | 业务中断。 |
重启虚拟机 | rebootServer | 次要 | 云服务器重启。 包括: 1. 在管理控制台进行重启操作。 2. 通过API接口下发重启指令。 |
1. 确认操作是否为主动执行。 2. 业务应用做成高可用。 3. 云主机开机后,确认业务是否自动恢复。 |
业务中断。 |
关闭虚拟机 | stopServer | 次要 | 云服务器关机。 包括: 1. 在管理控制台进行关机操作。 2. 通过API接口下发关机指令。 |
1. 确认操作是否为主动执行。 2. 业务应用做成高可用。 3. 云主机开机后,确认业务是否自动恢复。 |
业务中断。 |
删除网卡 | deleteNic | 重要 | 云服务器删除网卡。 包括: 1. 在管理控制台删除网卡。 2. 通过API接口下发删除网卡指令。 |
1. 确认操作是否为主动执行。 2. 业务应用做成高可用。 3. 删除网卡后,确认业务是否自动恢复。 |
网卡被删除,存在业务中断的可能。 |
变更规格 | resizeServer | 次要 | 云服务器规格变更。 包括: 1. 在管理控制台进行变更规格。 2. 通过API接口下发变更规格指令。 |
1. 确认操作是否为主动执行。 2. 业务应用做成高可用。 3. 变更规格后,确认业务是否自动恢复。 |
业务中断。 |
因硬件故障触发重启 | startAutoRecovery | 重要 | 弹性云服务器所在的主机出现故障时,系统会自动将弹性云主机迁移至正常的物理机, 迁移过程中系统会自动重启云主机。 |
等待恢复成功,观察业务是否受到影响。 | 业务存在中断的可能。 |
因硬件故障重启已完成 | endAutoRecovery | 重要 | 当自动迁移完成后,弹性云主机已恢复正常。 | 当收到“恢复成功”时,云服务器已正常工作,可继续使用。 | 业务恢复正常。 |
恢复超时(后台处理中) | faultAutoRecovery | 重要 | 迁移弹性云主机至正常的物理机操作超时。 | 迁移业务至其他云服务器。 | 业务中断。 |
开机失败 | faultPowerOn | 重要 | 云主机开机失败。 | 重试开机,若仍开机失败,联系运维人员处理。 | 云服务器无法开机。 |
GPU链路故障 | GPULinkFault | 紧急 | 弹性云主机所在的主机上GPU卡故障。 包括: 1. GPU卡故障。 2. GPU卡故障恢复中。 |
业务应用做成高可用。GPU卡故障恢复后,确认业务是否自动恢复。 | 业务中断。 |
FPGA链路故障 | FPGALinkFault | 紧急 | 弹性云主机所在的主机上FPGA卡故障。 包括: 1. FPGA卡故障。 2. FPGA卡故障恢复中。 |
业务应用做成高可用。FPGA卡故障恢复后,确认业务是否自动恢复。 | 业务中断。 |
主机进程异常导致虚拟机故障 | VMFaultsByHostProcessExceptions | 紧急 | 云服务器所在宿主机服务进程异常,导致云服务器故障。 | 联系运维人员处理 | 云服务器故障。 |
GuestOS系统层重启告警 | RestartGuestOS | 一般 | GuestOS内部重启。 | 联系运维人员处理。 | 在系统重启场景下,可能导致业务中断。 |
实例计划规格变更等待执行 | instance_resize_scheduled | 重要 | 实例在计划时间规格变更,任务等待执行。 | 确认执行窗口对业务的影响。 | 实例等待执行规格变更操作。 |
实例计划迁移等待执行 | instance_migrate_scheduled | 重要 | 由于底层硬件、系统运维等影响,实例在计划时间迁移,任务等待执行。 | 确认执行窗口对业务的影响。 | 实例等待执行迁移操作。 |
实例计划停止等待执行 | instance_stop_scheduled | 重要 | 由于底层硬件、系统运维等影响,实例在计划时间停止,任务等待执行。 | 确认执行窗口对业务的影响。 | 实例中止等待。 |
实例计划重启等待执行 | instance_reboot_scheduled | 重要 | 由于底层硬件、系统运维等影响,实例在计划时间重启,任务等待执行。 | 确认执行窗口对业务的影响。 | 实例等待执行重启。 |
实例计划重新部署等待执行 | instance_redeploy_scheduled | 重要 | 由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机,任务等待执行。 | 确认执行窗口对业务的影响。 | 实例等待执行重部署。 |
GPU SRAM存在 Uncorrectable ECC告警 |
SRAMUncorrectableEccError | 重要 | GPU卡SRAM出现Uncorrectable ECC Error硬件故障。 | 如果业务受损,请提交工单。 | 可能GPU硬件问题导致SRAM故障,导致业务异常退出。 |
GPU存在infoROM告警 | gpuInfoROMAlarm | 重要 | GPU可能存在硬件问题,导致驱动读取不到inforom信息。 | 非敏感业务可以继续使用该GPU卡,敏感业务请提交工单。 | 对业务暂时没有影响,当GPU硬件出现ECC故障时,可能无法自动完成故障页隔离,导致业务受损。 |
GPU发生double bit ECC告警 | doubleBitEccError | 重要 | GPU硬件存在double bit ECC故障。 | 如果业务受损停止,建议尝试重启虚拟机恢复业务。 如果业务仍然无法恢复,请提交工单。 |
可能会造成业务中断,故障页隔离后业务可继续正常使用GPU。 |
GPU隔离页过多告警 | gpuTooManyRetiredPagesAlarm | 重要 | GPU硬件存在过多ECC隔离页。 | 如果业务受损,请提交工单。 | GPU硬件存在过多ECC故障,可能频繁影响业务正常运行。 |
GPU A100 硬件发生ECC告警 | gpuA100EccAlarm | 重要 | GPU卡出现ECC硬件故障。 | 如果业务受损停止,建议尝试重启虚拟机恢复业务。 如果业务仍然无法恢复,请提交工单。 |
可能会造成业务中断,故障页隔离后业务可继续正常使用GPU。 |
GPU ECC内存页隔离失败告警 | eccPageRetirementRecordingFailure | 重要 | GPU硬件存在ECC故障,驱动自动隔离内存页时失败。 | 如果业务受损,请提交工单。 | 可能会造成业务中断,故障页隔离隔离失败,可能导致业务无法使用GPU。 |
GPU ECC页隔离告警 | eccPageRetirementRecordingEvent | 一般 | 存在ECC硬件错误,发生内存页自动隔离。 | 如果业务受损停止,建议尝试重启虚拟机恢复业务。 如果业务仍然无法恢复,请提交工单。 |
一般随ECC故障告警出现,单独出现不影响业务。 |
GPU single bit ECC过多告警 | highSingleBitEccErrorRate | 重要 | ECC硬件存在过高ECC single bit错误。 | 如果业务受损停止,建议尝试重启虚拟机恢复业务。 如果业务仍然无法恢复,请提交工单。 |
single bit的错误能够自动恢复,一般不影响GPU相关应用程序。 |
GPU驱动掉卡告警 | gpuDriverLinkFailureAlarm | 重要 | GPU链路正常,NVIDIA驱动找不到GPU硬件 | 建议尝试重启虚拟机恢复业务。如果业务仍然无法恢复,请提交工单。 | 一般驱动问题导致找不到对应位置的GPU。 |
GPU卡链路故障告警 | gpuPcieLinkFailureAlarm | 重要 | GPU链路异常,通过lspci查看GPU硬件出现故障。 | 如果业务受损,请提交工单。 | 硬件问题导致GPU链路异常,驱动无法使用GPU。 |
虚拟机GPU丢卡告警 | vmLostGpuAlarm | 重要 | 虚拟机实际有的GPU卡数量比规格里应分配的GPU卡数量少。 | 如果业务受损,请提交工单。 | 虚拟机GPU卡丢失。 |
GPU显存页告警 | gpuMemoryPageFault | 重要 | GPU内存页发生故障,故障可能由应用、驱动或硬件引起 | 如果业务受损,请提交工单。 | 可能GPU硬件问题导致显存故障,导致业务异常退出。 |
GPU图像引擎异常告警 | graphicsEngineException | 重要 | GPU图像引擎发生故障,可能由应用、驱动或硬件引起。 | 如果业务受损,请提交工单。 | 可能GPU硬件问题导致图像引擎故障,导致业务异常退出。 |
GPU温度过高告警 | highTemperatureEvent | 重要 | GPU硬件温度过高。 | 如果业务受损,请提交工单。 | GPU温度超过温度阈值,可能会引起GPU卡性能下降。 |
GPU NVLINK链路错误告警 | nvlinkError | 重要 | NVLINK的链路出现硬件故障 | 如果业务受损,请提交工单。 | NVLINK链路故障,影响业务使用GPU NVLINK能力。 |
nvidia-smi命令卡住 | nvidiaSmiHangEvent | 重要 | nvidia-smi命令超时,该命令可能卡住 | 如果业务受损,请提交工单。 | 可能是命令执行过程中,触发驱动问题,导致命令卡住,同时可能出现业务使用驱动报错问题。 |
开始热迁移 | liveMigrationStarted | 重要 | 弹性云服务器所在的主机可能出现故障,提前对虚拟机进行热迁移,避免宕机后导致业务中断。 | 等待虚拟机迁移成功,状态恢复正常。 | 实例热迁移开始。 |
结束热迁移 | liveMigrationCompleted | 重要 | 热迁移已经结束,弹性云服务器已恢复正常。 | 确认业务是否受到影响。 | 实例热迁移结束。 |
热迁移失败 | liveMigrationFailed | 重要 | 弹性云服务器热迁移出现问题,未热迁移成功。 | 确认应用集群业务是否受损。 | 实例热迁移失败。 |
宿主机存在宕机风险 | hostMayCrash | 重要 | 弹性云服务器所在的宿主机存在宕机风险,且由于一些原因,无法通过热迁移手段规避该风险。 | 确认应用集群业务是否受损。 | 实例有重启风险。 |
说明自动恢复:弹性云主机所在的硬件出现故障时,系统会自动将弹性云主机迁移至正常的物理机,该过程会导致云主机重启。