弹性云主机

事件名称	事件ID	事件级别	事件说明	处理建议	事件影响
删除虚拟机	deleteServer	重要	删除云服务器。包括： 1. 在管理控制台进行删除操作。 2. 通过API接口下发删除指令。	确认删除操作是否为主动执行。	业务中断。
重启虚拟机	rebootServer	次要	云服务器重启。包括： 1. 在管理控制台进行重启操作。 2. 通过API接口下发重启指令。	1. 确认操作是否为主动执行。 2. 业务应用做成高可用。 3. 云主机开机后，确认业务是否自动恢复。	业务中断。
关闭虚拟机	stopServer	次要	云服务器关机。包括： 1. 在管理控制台进行关机操作。 2. 通过API接口下发关机指令。	1. 确认操作是否为主动执行。 2. 业务应用做成高可用。 3. 云主机开机后，确认业务是否自动恢复。	业务中断。
删除网卡	deleteNic	重要	云服务器删除网卡。包括： 1. 在管理控制台删除网卡。 2. 通过API接口下发删除网卡指令。	1. 确认操作是否为主动执行。 2. 业务应用做成高可用。 3. 删除网卡后，确认业务是否自动恢复。	网卡被删除，存在业务中断的可能。
变更规格	resizeServer	次要	云服务器规格变更。包括： 1. 在管理控制台进行变更规格。 2. 通过API接口下发变更规格指令。	1. 确认操作是否为主动执行。 2. 业务应用做成高可用。 3. 变更规格后，确认业务是否自动恢复。	业务中断。
因硬件故障触发重启	startAutoRecovery	重要	弹性云服务器所在的主机出现故障时，系统会自动将弹性云主机迁移至正常的物理机，迁移过程中系统会自动重启云主机。	等待恢复成功，观察业务是否受到影响。	业务存在中断的可能。
因硬件故障重启已完成	endAutoRecovery	重要	当自动迁移完成后，弹性云主机已恢复正常。	当收到“恢复成功”时，云服务器已正常工作，可继续使用。	业务恢复正常。
恢复超时（后台处理中）	faultAutoRecovery	重要	迁移弹性云主机至正常的物理机操作超时。	迁移业务至其他云服务器。	业务中断。
开机失败	faultPowerOn	重要	云主机开机失败。	重试开机，若仍开机失败，联系运维人员处理。	云服务器无法开机。
GPU链路故障	GPULinkFault	紧急	弹性云主机所在的主机上GPU卡故障。包括： 1. GPU卡故障。 2. GPU卡故障恢复中。	业务应用做成高可用。GPU卡故障恢复后，确认业务是否自动恢复。	业务中断。
FPGA链路故障	FPGALinkFault	紧急	弹性云主机所在的主机上FPGA卡故障。包括： 1. FPGA卡故障。 2. FPGA卡故障恢复中。	业务应用做成高可用。FPGA卡故障恢复后，确认业务是否自动恢复。	业务中断。
主机进程异常导致虚拟机故障	VMFaultsByHostProcessExceptions	紧急	云服务器所在宿主机服务进程异常，导致云服务器故障。	联系运维人员处理	云服务器故障。
GuestOS系统层重启告警	RestartGuestOS	一般	GuestOS内部重启。	联系运维人员处理。	在系统重启场景下，可能导致业务中断。
实例计划规格变更等待执行	instance_resize_scheduled	重要	实例在计划时间规格变更，任务等待执行。	确认执行窗口对业务的影响。	实例等待执行规格变更操作。
实例计划迁移等待执行	instance_migrate_scheduled	重要	由于底层硬件、系统运维等影响，实例在计划时间迁移，任务等待执行。	确认执行窗口对业务的影响。	实例等待执行迁移操作。
实例计划停止等待执行	instance_stop_scheduled	重要	由于底层硬件、系统运维等影响，实例在计划时间停止，任务等待执行。	确认执行窗口对业务的影响。	实例中止等待。
实例计划重启等待执行	instance_reboot_scheduled	重要	由于底层硬件、系统运维等影响，实例在计划时间重启，任务等待执行。	确认执行窗口对业务的影响。	实例等待执行重启。
实例计划重新部署等待执行	instance_redeploy_scheduled	重要	由于底层硬件、系统运维等影响，实例在计划时间重新部署到新主机，任务等待执行。	确认执行窗口对业务的影响。	实例等待执行重部署。
GPU SRAM存在 Uncorrectable ECC告警	SRAMUncorrectableEccError	重要	GPU卡SRAM出现Uncorrectable ECC Error硬件故障。	如果业务受损，请提交工单。	可能GPU硬件问题导致SRAM故障，导致业务异常退出。
GPU存在infoROM告警	gpuInfoROMAlarm	重要	GPU可能存在硬件问题，导致驱动读取不到inforom信息。	非敏感业务可以继续使用该GPU卡，敏感业务请提交工单。	对业务暂时没有影响，当GPU硬件出现ECC故障时，可能无法自动完成故障页隔离，导致业务受损。
GPU发生double bit ECC告警	doubleBitEccError	重要	GPU硬件存在double bit ECC故障。	如果业务受损停止，建议尝试重启虚拟机恢复业务。如果业务仍然无法恢复，请提交工单。	可能会造成业务中断，故障页隔离后业务可继续正常使用GPU。
GPU隔离页过多告警	gpuTooManyRetiredPagesAlarm	重要	GPU硬件存在过多ECC隔离页。	如果业务受损，请提交工单。	GPU硬件存在过多ECC故障，可能频繁影响业务正常运行。
GPU A100 硬件发生ECC告警	gpuA100EccAlarm	重要	GPU卡出现ECC硬件故障。	如果业务受损停止，建议尝试重启虚拟机恢复业务。如果业务仍然无法恢复，请提交工单。	可能会造成业务中断，故障页隔离后业务可继续正常使用GPU。
GPU ECC内存页隔离失败告警	eccPageRetirementRecordingFailure	重要	GPU硬件存在ECC故障，驱动自动隔离内存页时失败。	如果业务受损，请提交工单。	可能会造成业务中断，故障页隔离隔离失败，可能导致业务无法使用GPU。
GPU ECC页隔离告警	eccPageRetirementRecordingEvent	一般	存在ECC硬件错误，发生内存页自动隔离。	如果业务受损停止，建议尝试重启虚拟机恢复业务。如果业务仍然无法恢复，请提交工单。	一般随ECC故障告警出现，单独出现不影响业务。
GPU single bit ECC过多告警	highSingleBitEccErrorRate	重要	ECC硬件存在过高ECC single bit错误。	如果业务受损停止，建议尝试重启虚拟机恢复业务。如果业务仍然无法恢复，请提交工单。	single bit的错误能够自动恢复，一般不影响GPU相关应用程序。
GPU驱动掉卡告警	gpuDriverLinkFailureAlarm	重要	GPU链路正常，NVIDIA驱动找不到GPU硬件	建议尝试重启虚拟机恢复业务。如果业务仍然无法恢复，请提交工单。	一般驱动问题导致找不到对应位置的GPU。
GPU卡链路故障告警	gpuPcieLinkFailureAlarm	重要	GPU链路异常，通过lspci查看GPU硬件出现故障。	如果业务受损，请提交工单。	硬件问题导致GPU链路异常，驱动无法使用GPU。
虚拟机GPU丢卡告警	vmLostGpuAlarm	重要	虚拟机实际有的GPU卡数量比规格里应分配的GPU卡数量少。	如果业务受损，请提交工单。	虚拟机GPU卡丢失。
GPU显存页告警	gpuMemoryPageFault	重要	GPU内存页发生故障，故障可能由应用、驱动或硬件引起	如果业务受损，请提交工单。	可能GPU硬件问题导致显存故障，导致业务异常退出。
GPU图像引擎异常告警	graphicsEngineException	重要	GPU图像引擎发生故障，可能由应用、驱动或硬件引起。	如果业务受损，请提交工单。	可能GPU硬件问题导致图像引擎故障，导致业务异常退出。
GPU温度过高告警	highTemperatureEvent	重要	GPU硬件温度过高。	如果业务受损，请提交工单。	GPU温度超过温度阈值，可能会引起GPU卡性能下降。
GPU NVLINK链路错误告警	nvlinkError	重要	NVLINK的链路出现硬件故障	如果业务受损，请提交工单。	NVLINK链路故障，影响业务使用GPU NVLINK能力。
nvidia-smi命令卡住	nvidiaSmiHangEvent	重要	nvidia-smi命令超时，该命令可能卡住	如果业务受损，请提交工单。	可能是命令执行过程中，触发驱动问题，导致命令卡住，同时可能出现业务使用驱动报错问题。
开始热迁移	liveMigrationStarted	重要	弹性云服务器所在的主机可能出现故障，提前对虚拟机进行热迁移，避免宕机后导致业务中断。	等待虚拟机迁移成功，状态恢复正常。	实例热迁移开始。
结束热迁移	liveMigrationCompleted	重要	热迁移已经结束，弹性云服务器已恢复正常。	确认业务是否受到影响。	实例热迁移结束。
热迁移失败	liveMigrationFailed	重要	弹性云服务器热迁移出现问题，未热迁移成功。	确认应用集群业务是否受损。	实例热迁移失败。
宿主机存在宕机风险	hostMayCrash	重要	弹性云服务器所在的宿主机存在宕机风险，且由于一些原因，无法通过热迁移手段规避该风险。	确认应用集群业务是否受损。	实例有重启风险。


                    说明
                    自动恢复：弹性云主机所在的硬件出现故障时，系统会自动将弹性云主机迁移至正常的物理机，该过程会导致云主机重启。

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

查看所有产品

云监控服务

云监控服务

弹性云主机

活动

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

查看所有产品

云监控服务

云监控服务

弹性云主机