云数据库GaussDB支持的事件列表
事件名称 | 事件ID | 事件级别 | 事件说明 | 处理建议 | 事件影响 |
---|---|---|---|---|---|
进程状态告警 | ProcessStatusAlarm | 重要 | GaussDB关键进程退出,包括:CMS/CMA、ETCD、GTM、CN、DN。 | 等待进程自动恢复或者自动主备切换,观察业务是否恢复。 如果业务未恢复,联系SRE。 |
主机进程故障,在主机上进行的业务将中断回滚。 备机进程故障不影响业务。 |
组件状态告警 | ComponentStatusAlarm | 重要 | GaussDB关键组件无响应,包括:CMA、ETCD、GTM、CN、DN。 | 等待进程自动恢复或者自动主备切换,观察业务是否恢复。 如果业务未恢复,联系SRE。 |
主机进程无响应,在主机上进行的业务将无响应。 备机进程故障不影响业务。 |
集群状态告警 | ClusterStatusAlarm | 重要 | 集群状态异常,包括:集群只读、ETCD多数派故障、集群分布不均衡。 | 联系SRE。 | 集群只读:业务只读。 ETCD多数派故障:集群不可用。集群分布不均衡:集群性能/可靠性降低。 |
硬件资源告警 | HardwareResourceAlarm | 重要 | 集群中出现严重的硬件故障,包括:磁盘损坏、GTM网络通信故障。 | 联系SRE。 | 业务部分/全部受损。 |
状态转换告警 | StateTransitionAlarm | 重要 | 集群出现如下重要事件: DN build/build失败、DN强切、DN主备切换/failover、GTM主备切换/failover。 |
等待自动恢复,观察业务是否恢复。如果业务未恢复,联系SRE。 | 部分业务受损。 |
其他异常告警 | OtherAbnormalAlarm | 重要 | 磁盘使用阈值告警等。 | 关注业务变化,及时计划扩容。 | 超过使用阈值,将无法扩容。 |
实例运行状态异常 | TaurusInstanceRunningStatusAbnormal | 重要 | 由于灾难或者物理机故障导致实例故障时,会上报该事件,属于关键告警事件。 | 提交工单。 | 可能导致数据库服务不可用。 |
实例运行状态异常已恢复 | TaurusInstanceRunningStatusRecovered | 重要 | 针对灾难性的故障,GaussDB有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。 | 不需要处理。 | 无 |
节点运行状态异常 | TaurusNodeRunningStatusAbnormal | 重要 | 由于灾难或者物理机故障导致数据库节点故障时,会上报该事件,属于关键告警事件。 | 检查数据库服务是否可以正常使用,并提交工单。 | 可能导致数据库服务不可用。 |
节点运行状态异常已恢复 | TaurusNodeRunningStatusRecovered | 重要 | 针对灾难性的故障,GaussDB有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。 | 不需要处理。 | 无 |
创建实例业务失败 | GaussDBV5CreateInstanceFailed | 重要 | 创建实例失败产生的事件,一般是配额大小不足,底层资源耗尽导致。 | 先释放不再使用的实例再尝试重新发放,或者提交工单调整配额上限。 | 无法创建数据库实例。 |
添加节点失败 | GaussDBV5ExpandClusterFailed | 重要 | 一般是由于底层资源不足等原因导致。 | 提交工单让运维在后台协调资源,删除添加失败的节点,重新尝试添加新节点。 | 无 |
存储扩容失败 | GaussDBV5EnlargeVolumeFailed | 重要 | 一般是由于底层资源不足等原因导致。 | 提交工单让运维在后台协调资源再重试扩容操作。 | 如果磁盘满,会导致业务中断。 |
重启失败 | GaussDBV5RestartInstanceFailed | 重要 | 一般是由于网络问题等原因导致 | 重试重启操作或提交工单让运维处理。 | 可能导致数据库服务不可用。 |
全量备份失败 | GaussDBV5FullBackupFailed | 重要 | 一般是备份文件导出失败或上传失败等原因导致。 | 提交工单让运维处理。 | 无法备份数据。 |
差量备份失败 | GaussDBV5DifferentialBackupFailed | 重要 | 一般是备份文件导出失败或上传失败等原因导致。 | 提交工单让运维处理。 | 无法备份数据。 |
删除备份失败 | GaussDBV5DeleteBackupFailed | 重要 | 无需实现。 | - | - |
绑定EIP失败 | GaussDBV5BindEIPFailed | 重要 | 弹性公网IP已被占用或IP资源等原因导致。 | 提交工单让运维处理。 | 导致实例无法使用公网链接或访问 |
解绑EIP失败 | GaussDBV5UnbindEIPFailed | 重要 | 网络故障或公网EIP服务故障等原因导致。 | 重新解绑Ip或提交工单让运维处理。 | 可能导致IP资源残留 |
参数组应用失败 | GaussDBV5ApplyParamFailed | 重要 | 一般是由于修改参数组命令超时导致。 | 重新尝试修改参数组操作。 | 无 |
参数修改失败 | GaussDBV5UpdateInstanceParamGroupFailed | 重要 | 一般是由于修改参数组命令超时导致。 | 重新尝试修改参数组操作。 | 无 |
备份恢复失败 | GaussDBV5RestoreFromBcakupFailed | 重要 | 一般是由底层资源不足或备份文件下载失败等原因导致 | 提交工单。 | 可能导致在恢复失败期间数据库服务不可用 |