OMS状态检查

指标项名称 ：OMS状态检查

指标项含义 ：OMS状态检查包括HA状态检查和资源状态检查。 HA状态取值为active、standby和NULL，分别表示主节点、备节点和未知。资源状态取值为normal、abnormal和NULL，分别表示正常、异常和未知。HA状态为NULL时，认为不健康；资源状态为NULL或abnormal时，认为不健康。

详见下表：OMS状态说明表

名称	说明
HA状态	active表示主节点 standby表示备节点 NULL表示未知
资源状态	normal表示所有资源都正常 abnormal表示有异常资源 NULL表示未知

恢复指导：

1.登录主管理节点，执行su - omm切换到omm用户。执行${CONTROLLER_HOME}/sbin/status-oms.sh查看OMS状态。

2.如果HA状态为NULL，可能是系统在重启，这个一般是中间状态，HA后续会自动调整为正常状态。

3.如果资源状态异常，则说明有Manager的某些组件资源异常，可具体查看acs、aos、cep、controller、feed_watchdog、fms、guassDB、httpd、iam、ntp、okerberos、oldap、pms、tomcat等组件状态是否正常。

4.如果Manager组件资源异常，参见下方“Manager组件状态检查”进行处理。

Manager组件状态检查

指标项名称 ：Manager组件状态检查

指标项含义 ：Manager组件状态检查包括组件资源运行状态和资源HA状态。资源运行状态，取值为Normal、Abnormal等；资源HA状态，取值为Normal、Exception等。Manager组件包含acs、aos、cep、controller、feed_watchdog、floatip、fms、gaussDB、heartBeatCheck、httpd、iam、ntp、okerberos、oldap、pms、tomcat等。当运行状态和HA状态不是Normal时，认为指标不健康。

详见下表：Manager组件状态说明表

名称	说明
资源运行状态	Normal表示正常运行 Abnormal表示运行异常 Stopped表示停止 Unknown表示状态未知 Starting表示正在启动 Stopping表示正在停止 Active_normal表示主正常运行 Standby_normal表示备正常运行 Raising_active表示正在升主 Lowing_standby表示正在降备 No_action表示没有该动作 Repairing表示正在修复 NULL表示未知
资源HA状态	Normal表示正常 Exception表示故障 Non_steady表示非稳态 Unknown表示未知 NULL表示未知

恢复指导：

1.登录主管理节点，执行su - omm切换到omm用户。执行${CONTROLLER_HOME}/sbin/status-oms.sh查看OMS状态。

2.如果floatip、okerberos、oldap等异常，可参见告警ALM-12004、ALM-12005分别进行处理。

3.如果是其他资源异常，建议查看相关异常模块的日志。

controller资源异常：查看异常节点的/var/log/Bigdata/controller/controller.log。

cep资源异常：查看异常节点的/var/log/Bigdata/omm/oms/cep/cep.log。

aos资源异常：查看异常节点的/var/log/Bigdata/controller/aos/aos.log。

feed_watchdog资源异常：查看异常节点的/var/log/Bigdata/watchdog/watchdog.log。

httpd资源异常：查看异常节点的/var/log/Bigdata/httpd/error_log。

fms资源异常：查看异常节点的/var/log/Bigdata/omm/oms/fms/fms.log。

pms资源异常：查看异常节点的/var/log/Bigdata/omm/oms/pms/pms.log。

iam资源异常：查看异常节点的/var/log/Bigdata/omm/oms/iam/iam.log。

gaussDB资源异常：查看异常节点的/var/log/Bigdata/omm/oms/db/omm_gaussdba.log。

ntp资源异常：查看异常节点的/var/log/Bigdata/omm/oms/ha/scriptlog/ha_ntp.log。

tomcat资源异常：查看异常节点的/var/log/Bigdata/tomcat/catalina.log。

4.如果通过日志无法排除问题，请联系运维人员处理，并发送已收集的故障日志信息。

OMA运行状态

指标项名称 ：OMA运行状态

指标项含义 ：检查OMA的运行状态，状态结果包括运行和停止两种状态，如果OMA状态为停止，则认为不健康。

恢复指导：

1.登录检查结果不健康的节点，然后执行su - omm切换到omm用户。

2.执行 ${OMA_PATH}/restart_oma_app ，手工启动OMA，然后重新检查。如果检查结果仍然不健康，则执行3。

3.如果手工启动OMA无法恢复，建议查看分析OMA日志“/var/log/Bigdata/omm/oma/omm_agent.log”。

如果通过日志无法排除问题，请联系运维人员处理，并发送已收集的故障日志信息。

各节点与主管理节点之间SSH互信

指标项名称： 各节点与主管理节点之间SSH互信

指标项含义 ：检查SSH互信是否正常。如果使用omm用户，在主管理节点可以通过SSH登录其他节点且不需要输入密码，则认为健康；否则，不健康。或者主管理节点SSH可以直接登录其他节点，但在其他节点无法通过SSH登录主管理节点，则也认为不健康。

恢复指导：

1.如果该指标项检查异常，表示各节点与主管理节点之间SSH互信异常。SSH互信异常时，首先检查“/home/omm”目录的权限是否为 omm 。非omm的目录权限可能导致SSH互信异常，建议执行chown omm:wheel修改权限后重新检查。如果“/home/omm”目录权限正常，则执行2。

2.SSH互信异常一般会导致Controller和NodeAgent之间心跳异常，进而出现节点故障的告警。

进程运行时间

指标项名称： NodeAgent运行时间、Controller运行时间和Tomcat运行时间

指标项含义 ：检查NodeAgent、Controller、Tomcat进程的运行时间。如果小于半小时（即1800s），则进程可能重启过，建议半小时后再检查。如果多次检查，进程的运行时间都小于半小时，说进程状态异常。

恢复指导：

1.登录检查结果不健康的节点，执行su - omm切换到omm用户。

2.根据进程名称查看进程pid，执行命令：

ps -ef | grep NodeAgent

3.根据pid查看进程启动时间，执行命令：

ps-p pid -o lstart

4.判断进程启动时间是否正常。如果进程一直反复重启，执行5。

5.查看对应模块日志，分析重启原因。

NodeAgent运行时间异常，检查相关日志 /var/log/Bigdata/nodeagent/agentlog/agent.log 。

Controller运行时间异常，检查相关日志 /var/log/Bigdata/controller/controller.log 。

Tomcat运行时间异常，检查相关日志 /var/log/Bigdata/tomcat/web.log 。

6.如果通过日志无法排除问题，请联系运维人员处理，并发送已收集的故障日志信息。

帐户及密码过期检查

指标项名称 ：帐户及密码过期检查

指标项含义 ：该指标项检查MRS的两个操作系统用户omm和 ommdba 。对操作系统用户，同时检查帐户及密码的过期时间。如果帐户或密码有效期小于等于15天，则认为不健康。

恢复指导 ：如果帐户或密码有效期小于等于15天，建议及时联系运维人员处理。

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

翼MapReduce

翼MapReduce

OMS状态检查

Manager组件状态检查

OMA运行状态

各节点与主管理节点之间SSH互信

进程运行时间

帐户及密码过期检查

活动

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

翼MapReduce

翼MapReduce

OMS状态检查

Manager组件状态检查

OMA运行状态

各节点与主管理节点之间SSH互信

进程运行时间

帐户及密码过期检查