告警解释
系统每30秒周期性检测Spark服务状态,当检测到Spark服务不可用时产生该告警。
Spark服务恢复时,告警清除。
告警属性
告警ID | 告警级别 | 可自动清除 |
---|---|---|
28001 | 致命 | 是 |
告警参数
参数名称 | 参数含义 |
---|---|
ServiceName | 产生告警的服务名称。 |
RoleName | 产生告警的角色名称。 |
HostName | 产生告警的主机名。 |
对系统的影响
用户提交的Spark任务执行失败。
可能原因
- KrbServer服务异常。
- LdapServer服务异常。
- ZooKeeper服务异常。
- HDFS服务故障。
- Yarn服务故障。
- 对应的Hive服务故障。
处理步骤
检查Spark依赖的服务是否有服务不可用告警。
-
登录MRS集群详情页面,选择“告警管理”。
-
在告警列表中,查看是否存在以下告警:
a.ALM-25500 KrbServer服务不可用
b.ALM-25000 LdapServer服务不可用
c.ALM-13000 ZooKeeper服务不可用
d.ALM-14000 HDFS服务不可用
e.ALM-18000 Yarn服务不可用
f.ALM-16004 Hive服务不可用
- 是,执行3。
- 否,执行 收集故障信息。
-
根据对应服务不可用告警帮助提供的故障处理对应告警。[]()[]()告警全部恢复后,等待几分钟,检查本告警是否恢复。
- 是,处理完毕。
- 否,执行 收集故障信息。
收集故障信息。
- 在MRS Manager界面,单击“系统设置 > 日志导出”。
- 请联系运维人员,并发送已收集的故障日志信息。
参考信息
无。