云数据库GaussDB NoSQL支持的事件列表
事件名称 | 事件ID | 事件级别 | 事件说明 | 处理建议 | 事件影响 |
---|---|---|---|---|---|
创建实例业务失败 | NoSQLCreateInstanceFailed | 重要 | 一般是由于实例配额不足或底层资源不足等原因导致。 | 先释放不再使用的实例再尝试重新发放,或者提交工单调整配额上限。 | 无法创建数据库实例。 |
变更规格失败 | NoSQLResizeInstanceFailed | 重要 | 一般是由于底层资源不足等原因导致。 | 提交工单让运维在后台协调资源再重试规格变更操作。 | 业务中断。 |
添加节点失败 | NoSQLAddNodesFailed | 重要 | 一般是由于底层资源不足等原因导致。 | 提交工单让运维在后台协调资源,删除添加失败的节点,重新尝试添加新节点。 | 无 |
删除节点失败 | NoSQLDeleteNodesFailed | 重要 | 一般是由于底层释放资源失败导致。 | 重新尝试删除节点。 | 无 |
扩卷失败 | NoSQLScaleUpStorageFailed | 重要 | 一般是由于底层资源不足等原因导致。 | 提交工单让运维在后台协调资源再重试扩卷操作。 | 如果磁盘满,会导致业务中断。 |
重置密码失败 | NoSQLResetPasswordFailed | 重要 | 一般是由于重置密码命令超时导致。 | 重新尝试重置密码操作。 | 无 |
修改参数组失败 | NoSQLUpdateInstance ParamGroupFailed |
重要 | 一般是由于修改参数组命令超时导致。 | 重新尝试修改参数组操作。 | 无 |
设置备份策略失败 | NoSQLSetBackupPolicyFailed | 重要 | 一般是由于数据库连接异常导致。 | 重新重试设置备份策略操作。 | 无 |
创建手动备份失败 | NoSQLCreateManualBackupFailed | 重要 | 一般是备份文件导出失败或上传失败等原因导致。 | 提交工单让运维处理。 | 无法备份数据。 |
创建自动备份失败 | NoSQLCreateAutomatedBackupFailed | 重要 | 一般是备份文件导出失败或上传失败等原因导致。 | 提交工单让运维处理。 | 无法备份数据。 |
实例运行状态异常 | NoSQLFaultyDBInstance | 重要 | 由于灾难或者物理机故障导致实例故障时,会上报该事件,属于关键告警事件。 | 提交工单。 | 可能导致数据库服务不可用。 |
实例运行状态异常已恢复 | NoSQLDBInstanceRecovered | 重要 | 针对灾难性的故障,NoSQL有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。 | 不需要处理。 | 无 |
节点运行状态异常 | NoSQLFaultyDBNode | 重要 | 由于灾难或者物理机故障导致数据库节点故障时,会上报该事件,属于关键告警事件。 | 检查数据库服务是否可以正常使用,并提交工单。 | 可能导致数据库服务不可用。 |
节点运行状态异常已恢复 | NoSQLDBNodeRecovered | 重要 | 针对灾难性的故障,NoSQL有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。 | 不需要处理。 | 无 |
实例主备切换 | NoSQLPrimaryStandbySwitched | 重要 | 在手动触发的主备倒换或节点故障自动触发的故障倒换场景下,会上报该事件。 | 不需要处理。 | 无 |
出现热点分区键 | HotKeyOccurs | 重要 | 客观上是因为主键设置不合理,使得热点数据集中分布在一个分区。 客户端不合理的应用程序设计,造成对某一key的频繁读写。 |
1. 选择合理的分区键。 2. 业务增加缓存,业务应用先从缓存中读取热点数据。 |
影响业务请求成功率,存在影响集群性能及稳定性的风险。 |
出现超大分区键 | BigKeyOccurs | 重要 | 主键设计不合理,单个分区的记录数或数据量过大,引起了节点负载不均。 | 1. 选择合理的分区键 2. 基于现有分区键,增加分区键散列。 |
随着数据量增长,集群稳定性会下降。 |
数据盘空间不足 | NoSQLRiskyDataDiskUsage | 重要 | 数据盘空间不足,产生此告警。 | 请参见对应服务用户指南中“扩容磁盘”的内容,进行磁盘扩容。 | 实例被设为只读模式,数据无法写入。 |
数据盘空间已扩容并恢复可写 | NoSQLDataDiskUsageRecovered | 重要 | 数据盘空间已扩容并恢复可写,产生此事件。 | 无需处理。 | 无 |
创建索引失败 | NoSQLCreateIndexFailed | 重要 | 业务负载超过实例规格瓶颈,此时再创建索引会耗费更多实例资源,导致响应变慢甚至卡顿,最终超时,引起索引创建失败。 | 1、根据业务负载,选择匹配的实例规格 2、在业务低峰期创建索引 3、使用后台方式创建索引 4、索引字段,结合业务进行合理选择。 |
索引创建失败或不完整,导致索引无效,需要删掉索引重新创建。 |
发生写入降速 | NoSQLStallingOccurs | 重要 | 写入速度快,接近集群规模和实例规格范围允许最大写能力,从而触发数据库自身的限流机制,会发生请求失败情况 | 1. 根据业务的最大写请求速率,调整集群规模或者节点规格 2. 衡量业务的最大写请求速率,分散业务写峰值速率 |
影响业务的请求的成功率 |
发生写入停止 | NoSQLStoppingOccurs | 重要 | 写入速度过快,达到集群规模和实例规格范围允许最大写能力,从而触发数据库自身的限流机制,会发生请求失败情况 | 1. 根据业务的最大写请求速率,调整集群规模或者节点规格 2. 衡量业务的最大写请求速率,分散业务写峰值速率 |
影响业务的请求的成功率 |
重启数据库失败 | NoSQLRestartDBFailed | 重要 | 一般是由于实例状态异常等原因导致。 | 提交工单让运维处理。 | 数据库实例状态可能存在异常。 |
恢复到新实例失败 | NoSQLRestoreToNewInstanceFailed | 重要 | 一般是由于底层资源不足等原因导致。 | 提交工单让运维在后台协调资源,重新尝试添加新节点。 | 无法恢复到新的数据库实例。 |
恢复到已有实例失败 | NoSQLRestoreToExistInstanceFailed | 重要 | 一般是由于备份文件下载或恢复失败等原因导致。 | 提交工单让运维处理。 | 当前数据库实例可能处于不可用状态。 |
删除备份文件失败 | NoSQLDeleteBackupFailed | 重要 | 一般是由于备份文件从obs删除失败导致。 | 重新尝试删除备份文件。 | 无 |
切换慢日志明文开关失败 | NoSQLSwitchSlowlogPlainTextFailed | 重要 | 一般是由于引擎不支持切换等原因导致。 | 请查阅NoSQL用户指南,确认引擎支持打开慢日志明文开关。提交工单让运维处理。 | 无 |
绑定EIP失败 | NoSQLBindEipFailed | 重要 | 一般是由于节点状态不正常,节点已经绑定EIP或EIP非法等原因导致。 | 检查节点是否正常,EIP是否合法。 | 无法通过公网访问数据库实例。 |
解绑EIP失败 | NoSQLUnbindEipFailed | 重要 | 一般是由于节点状态不正常,节点已经未绑定EIP等原因导致。 | 检查节点和EIP状态是否正常。 | 无 |
修改参数失败 | NoSQLModifyParameterFailed | 重要 | 一般是由于参数取值非法等原因导致。 | 排查参数值是否符合在合法范围内,提交工单让运维处理。 | 无 |
参数组应用失败 | NoSQLApplyParameterGroupFailed | 重要 | 一般是由于实例状态异常导致参数组无法应用等原因导致。 | 提交工单让运维处理。 | 无 |
开启或关闭SSL失败 | NoSQLSwitchSSLFailed | 重要 | 一般是由于修改SSL命令超时导致。 | 重新提交一次或者提交工单处理,并先保持切换之前使用SSL的连接方式。 | 是否使用SSL连接。 |
单行数据量太大 | LargeRowOccurs | 重要 | 用户单行数据量过大,可能会导致查询超时,进而节点OOM异常退出等各种故障发生。 | 1. 对每列和每行的写入长度做限制,遵从规范,使得单行的的key和value长度和不超过阈值。 2. 排查业务是否出现异常写入和异常编码,导致写入大row。 |
过大的单行记录,随着数据量增长,集群稳定性会下降。 |
用户计划删除KMS密钥 | NoSQLplanDeleteKmsKey | 重要 | 一般是由于用户计划删除kms的key导致。 | 计划删除kms的key后,及时恢复kms的key或者及时解密数据。 | kms的key被删除后用户无法进行磁盘加密。 |
查询墓碑数过多 | TooManyQueryTombstones | 重要 | 查询墓碑数过多,可能会导致查询超时,影响查询性能。 | 使用合理的查询删除方式,避免大批次的范围查询 | 可能会导致查询超时,影响查询性能。 |
超大集合列 | TooLargeCollectionColumn | 重要 | 当集合列元素个数太多时,会出现集合列查询失败。 | 对集合列的元素个数做限制,遵从规范不超过阈值。 排查业务是否出现异常写入和异常编码,导致写入大集合列。 |
会出现集合列查询失败。 |