翼MapReduce MRS支持的事件列表-云监控服务-用户指南-事件监控-事件监控支持的事件说明

翼MapReduce（翼MR）是一种基于云计算平台的数据处理分析服务，打造了高可靠、高安全、易使用的运行维护平台，对外提供大容量数据的存储和分析能力，可解决用户实时性要求不高的海量数据存储和处理需求，可以独立申请和使用托管Hadoop、Spark、HBase和Hive组件。

支持的事件列表如下：

事件名称	事件ID	事件级别	事件说明	处理建议	事件影响
DBServer主备倒换	dbServerSwitchover	次要	DBServer主备倒换	主备倒换需要和运维人员确认是否为正常操作导致。	连续触发主备倒换可能影响Hive服务正常使用，导致Hive服务不可用。
Flume Channel溢出	flumeChannelOverflow	次要	Flume Channel溢出	确认flume的channel配置是否合理，业务量是否有突增。	Flume任务无法正常写入数据到后端。
NameNode主备倒换	namenodeSwitchover	次要	NameNode主备倒换	主备倒换需要和运维人员确认是否为正常操作导致。	连续触发主备倒换可能影响HDFS服务正常使用，读写HDFS文件可能失败。
ResourceManager主备倒换	resourceManagerSwitchover	次要	ResourceManager主备倒换	主备倒换需要和运维人员确认是否为正常操作导致	连续触发主备倒换可能影响Yarn服务正常使用，导致任务出现异常甚至失败
JobHistoryServer主备倒换	jobHistoryServerSwitchover	次要	JobHistoryServer主备倒换	主备倒换需要和运维人员确认是否为正常操作导致	连续触发主备倒换可能影响MapReduce服务正常使用，导致任务日志读取异常
HMaster主备倒换	hmasterFailover	次要	HMaster主备倒换	主备倒换需要和运维人员确认是否为正常操作导致	连续触发主备倒换可能影响HBase服务正常使用
Hue发生主备切换	hueFailover	次要	Hue发生主备切换	主备倒换需要和运维人员确认是否为正常操作导致	主备倒换可能影响HUE服务正常使用，导致页面无法使用等问题
Impala HaProxy服务发生主备切换	impalaHaProxyFailover	次要	Impala HaProxy服务发生主备切换	主备倒换需要和运维人员确认是否为正常操作导致	连续触发主备倒换可能影响Impala服务正常使用
Impala StateStoreCatalog服务发生主备切换	impalaStateStoreCatalogFailover	次要	Impala StateStoreCatalog服务发生主备切换	主备倒换需要和运维人员确认是否为正常操作导致	连续触发主备倒换可能影响Impala服务正常使用
LdapServer主备倒换	ldapServerFailover	次要	LdapServer主备倒换	主备倒换需要和运维人员确认是否为正常操作导致	连续触发主备倒换可能影响LdapServer服务正常使用
Loader主备倒换	loaderSwitchover	次要	Loader主备倒换	主备倒换需要和运维人员确认是否为正常操作导致	主备倒换可能影响Loader服务正常使用
Manager主备倒换	managerSwitchover	提示	Manager主备倒换	主备倒换需要和运维人员确认是否为正常操作导致	Manager主备倒换可能导致Manager页面无法正常访问，部分监控可能出现异常数值
作业执行失败	jobRunningFailed	提示	作业执行失败	查看作业管理页面，确认失败任务是否有异常	作业执行过程出现失败
作业被终止	jobkilled	提示	作业被终止	确认任务是否人为下发终止命令	作业执行过程被终止
Oozie工作流执行失败	oozieWorkflowExecutionFailure	次要	Oozie工作流执行失败	查看Oozie日志，确认任务失败原因	Oozie工作流执行失败
Oozie定时任务执行失败	oozieScheduledJobExecutionFailure	次要	Oozie定时任务执行失败	查看Oozie日志，确认任务失败原因	Oozie定时任务执行失败
ClickHouse服务不可用	clickHouseServiceUnavailable	紧急	ClickHouse服务不可用	请参考《MapReduce服务用户指南》的“ALM-45425 ClickHouse服务不可用”章节。	ClickHouse服务异常，无法通过FusionInsight Manager对ClickHouse进行集群操作，无法使用ClickHouse服务功能。
DBService服务不可用	dbServiceServiceUnavailable	紧急	DBService服务不可用	请参考《MapReduce服务用户指南》的“ALM-27001 DBService服务不可用”章节。	数据库服务不可用，无法对上层服务提供数据入库、查询等功能，使部分服务异常。
DBService主备节点间心跳中断	dbServiceHeartbeatInterruption BetweentheActiveAndStandbyNodes	重要	DBService主备节点间心跳中断	请参考《MapReduce服务用户指南》的“ALM-27003 DBService主备节点间心跳中断”章节。	DBService主备间心跳中断时只有一个节点提供服务，一旦该节点故障，再无法切换到备节点，就会服务不可用。
DBService主备数据不同步	dataInconsistencyBetween ActiveAndStandbyDBServices	紧急	DBService主备数据不同步	请参考《MapReduce服务用户指南》的“ALM-27004 DBService主备数据不同步”章节。	主备DBServer数据不同步，如果此时主实例异常，则会出现数据丢失或者数据异常的情况。
数据库进入只读模式	databaseEnterstheReadOnlyMode	紧急	数据库进入只读模式	请参考《MapReduce服务用户指南》的“ALM-27007 数据库进入只读模式”章节。	数据库进入只读模式，业务数据丢失。
Flume服务不可用	flumeServiceUnavailable	紧急	Flume服务不可用	请参考《MapReduce服务用户指南》的“ALM-24000 Flume服务不可用”章节。	当Flume服务不可用时，Flume不能正常工作，数据传输业务中断。
Flume Agent异常	flumeAgentException	重要	Flume Agent异常	请参考《MapReduce服务用户指南》的“ALM-24001 Flume Agent异常”章节。	产生告警的Flume Agent实例无法正常启动，定义在该实例下的数据传输任务暂时中断，对于实时数据传输，会丢失实时数据。
Flume Client连接中断	flumeClientDisconnected	重要	Flume Client连接中断	请参考《MapReduce服务用户指南》的“ALM-24003 Flume Client连接中断”章节。	产生告警的Flume Client无法与Flume Server端进行通信，Flume Client端的数据无法传输到Flume Server端。
Flume读取数据异常	exceptionOccursWhenFlumeReadsData	重要	Flume读取数据异常	请参考《MapReduce服务用户指南》的“ALM-24004 Flume读取数据异常”章节。	如果数据源有数据，Flume Source持续读取不到数据，数据采集会停止。
Flume传输数据异常	exceptionOccursWhenFlumeTransmitsData	重要	Flume传输数据异常	请参考《MapReduce服务用户指南》的“ALM-24005 Flume传输数据异常”章节。	Flume Channel的磁盘空间使用量有继续增长的趋势，将会使数据导入到指定目的地的时间增长，当Flume Channel的磁盘空间使用量达到100%时会导致Flume Agent进程暂停工作。
Flume 证书文件非法或已损坏	flumeCertificateFileIsinvalid	重要	Flume 证书文件非法或已损坏	请参考《MapReduce服务用户指南》的“ALM-24010 Flume证书文件非法或已损坏”章节。	Flume证书文件已经非法或损坏，功能受限，Flume客户端将无法访问Flume服务端。
Flume 证书文件即将过期	flumeCertificateFileIsAboutToExpire	重要	Flume 证书文件即将过期	请参考《MapReduce服务用户指南》的“ALM-24011 Flume证书文件即将过期”章节。	Flume证书文件即将失效，对系统目前运行无影响。
Flume 证书文件已过期	flumeCertificateFileIsExpired	重要	Flume 证书文件已过期	请参考《MapReduce服务用户指南》的“ALM-24012 Flume证书文件已过期”章节。	Flume证书文件已过期，功能受限，Flume客户端将无法访问Flume服务端。
Flume MonitorServer证书文件失效	flumeMonitorServerCertificateFileIsInvalid	重要	Flume MonitorServer证书文件失效	请参考《MapReduce服务用户指南》的“ALM-24013 Flume MonitorServer证书文件非法或已损坏”章节。	MonitorServer证书文件已经非法或损坏，功能受限，Flume客户端将无法访问Flume服务端。
Flume MonitorServer证书文件即将过期	flumeMonitorServerCertificate FileIsAboutToExpire	重要	Flume MonitorServer证书文件即将过期	请参考《MapReduce服务用户指南》的“ALM-24014 Flume MonitorServer证书文件即将过期”章节。	MonitorServer证书文件即将失效，对系统目前运行无影响。
Flume MonitorServer证书文件已过期	flumeMonitorServerCertificateFileIsExpired	重要	Flume MonitorServer证书文件已过期	请参考《MapReduce服务用户指南》的“ALM-24015 Flume MonitorServer证书文件已过期”章节。	MonitorServer证书文件已过期，功能受限，Flume客户端将无法访问Flume服务端。
HDFS服务不可用	hdfsServiceUnavailable	紧急	HDFS服务不可用	请参考《MapReduce服务用户指南》的“ALM-14000 HDFS服务不可用”章节。	无法为基于HDFS服务的HBase和MapReduce等上层部件提供服务。用户无法读写文件。
NameService服务异常	nameServiceServiceUnavailable	重要	NameService服务异常	请参考《MapReduce服务用户指南》的“ALM-14010 NameService服务异常”章节。	无法为基于该NameService服务的HBase和MapReduce等上层部件提供服务。用户无法读写文件。
DataNode数据目录配置不合理	datanodeDataDirectoryIsNotConfiguredProperly	重要	DataNode数据目录配置不合理	请参考《MapReduce服务用户指南》的“ALM-14011 DataNode数据目录配置不合理”章节。	如果将DataNode数据目录挂载在根目录等系统关键目录，长时间运行后会将根目录写满，导致系统故障。不合理的DataNode数据目录配置，会造成HDFS的性能下降。
Journalnode数据不同步	journalnodeIsOutOfSynchronization	重要	Journalnode数据不同步	请参考《MapReduce服务用户指南》的“ALM-14012 Journalnode数据不同步”章节。	当一个JournalNode节点工作状态异常时，其数据就会与其他JournalNode节点的数据不同步。如果超过一半的JournalNode节点的数据不同步时，NameNode将无法工作，导致HDFS服务不可用。
NameNode FsImage文件更新失败	failedToUpdateTheNameNodeFsImageFile	重要	NameNode FsImage文件更新失败	请参考《MapReduce服务用户指南》的“ALM-14013 NameNode FsImage文件更新失败”章节。	如果主NameNode数据目录的FsImage没有更新，则说明HDFS元数据合并功能异常，需要修复。如不修复，HDFS在运行一段时间后，Editlog会一直增长。此时如果重启HDFS，由于要加载非常多的Editlog，会导致启动非常耗时。另外，该告警的产生也说明备NameNode功能异常，导致NameNode的HA机制失效。一旦主NameNode故障，则整个HDFS服务将不可用。
DataNode磁盘故障	datanodeDiskFault	重要	DataNode磁盘故障	请参考《MapReduce服务用户指南》的“ALM-14027 DataNode磁盘故障”章节。	上报DataNode磁盘故障告警时，表示该DataNode节点上存在故障的磁盘分区，可能会导致已写入的文件丢失。
Yarn服务不可用	yarnServiceUnavailable	紧急	Yarn服务不可用	请参考《MapReduce服务用户指南》的“ALM-18000 Yarn服务不可用”章节。	集群无法提供Yarn服务。用户无法执行新的application。已提交的application无法执行。
NodeManager心跳丢失	nodemanagerHeartbeatLost	重要	NodeManager心跳丢失	请参考《MapReduce服务用户指南》的“ALM-18002 NodeManager心跳丢失”章节。	丢失的NodeManager节点无法提供Yarn服务。容器减少，集群性能下降。
NodeManager不健康	nodemanagerUnhealthy	重要	NodeManager不健康	请参考《MapReduce服务用户指南》的“ALM-18003 NodeManager不健康”章节。	故障的NodeManager节点无法提供Yarn服务。容器减少，集群性能下降。
Yarn 任务执行超时	yarnApplicationTimeout	次要	Yarn 任务执行超时	请参考《MapReduce服务用户指南》的“ALM-18020 Yarn任务执行超时”章节。	任务执行超时后的运行时间内，该告警一直存在，但任务仍继续正常执行，没有任何影响。
Mapreduce服务不可用	mapreduceServiceUnavailable	紧急	Mapreduce服务不可用	请参考《MapReduce服务用户指南》的“ALM-18021 Mapreduce服务不可用”章节。	集群无法提供Mapreduce服务，如无法通过Mapreduce查看任务日志，无法提供Mapreduce服务的日志归档功能等。
Yarn队列资源不足	insufficientYarnQueueResources	次要	Yarn队列资源不足	请参考《MapReduce服务用户指南》的“ALM-18022 Yarn队列资源不足”章节。	应用任务结束时间变长。新应用提交后长时间无法运行。
HBase服务不可用	hbaseServiceUnavailable	紧急	HBase服务不可用	请参考《MapReduce服务用户指南》的“ALM-19000 HBase服务不可用”章节。	无法进行数据读写和创建表等操作。
HBase系统表目录或文件丢失	systemTablePathOrFileOfHBaseIsMissing	紧急	HBase系统表目录或文件丢失	请参考《MapReduce服务用户指南》的“ALM-19012 HBase系统表目录或文件丢失”章节。	HBase服务重启/启动失败。
Hive服务不可用	hiveServiceUnavailable	紧急	Hive服务不可用	请参考《MapReduce服务用户指南》的“ALM-16004 Hive服务不可用”章节。	Hive无法提供数据加载，查询，提取服务。
Hive数据仓库被删除	hiveDataWarehouseIsDeleted	紧急	Hive数据仓库被删除	请参考《MapReduce服务用户指南》的“ALM-16045 Hive数据仓库被删除”章节。	Hive默认数据仓库被删除，会导致在默认数据仓库中创建库、创建表失败，影响业务正常使用。
Hive数据仓库权限被修改	hiveDataWarehousePermissionIsModified	紧急	Hive数据仓库权限被修改	请参考《MapReduce服务用户指南》的“ALM-16046 Hive数据仓库权限被修改”章节。	Hive默认数据仓库的权限被修改，会影响当前用户，用户组，其他用户在默认数据仓库中创建库、创建表等操作的操作权限范围。会扩大或缩小权限。
HiveServer已从Zookeeper注销	hiveServerHasBeenDeregisteredFromZookeeper	重要	HiveServer已从Zookeeper注销	请参考《MapReduce服务用户指南》的“ALM-16047 HiveServer已从Zookeeper注销”章节。	当无法在Zookeeper上读取到Hive的配置，将会导致HiveServer不可用。
tez或者spark库路径不存在	tezlibOrSparklibIsNotExist	重要	tez或者spark库路径不存在	请参考《MapReduce服务用户指南》的“ALM-16048 Tez或者Spark库路径不存在”章节。	Tez或者Spark库路径不存在，会影响Hive on Tez，Hive on Spark的功能。
Hue服务不可用	hueServiceUnavailable	紧急	Hue服务不可用	请参考《MapReduce服务用户指南》的“ALM-20002 Hue服务不可用”章节。	系统无法提供数据加载，查询，提取服务。
Impala服务不可用	impalaServiceUnavailable	紧急	Impala服务不可用	请参考《MapReduce服务用户指南》的“ALM-29000 Impala服务不可用”章节。	Impala服务异常，无法通过FusionInsight Manager对Impala进行集群操作，无法使用Impala服务功能。
Kafka服务不可用	kafkaServiceUnavailable	紧急	Kafka服务不可用	请参考《MapReduce服务用户指南》的“ALM-38000 Kafka服务不可用”章节。	集群无法对外提供Kafka服务，用户无法执行新的Kafka任务。
Kafka默认用户状态异常	statusOfKafkaDefaultUserIsAbnormal	紧急	Kafka默认用户状态异常	请参考《MapReduce服务用户指南》的“ALM-38007 Kafka默认用户状态异常”章节。	Kafka默认用户状态异常，会影响Broker之间的元数据同步，以及Kafka与ZooKeeper之间的交互，进而影响业务生产、消费和Topic的创建、删除等操作。
Kafka数据目录状态异常	abnormalKafkaDataDirectoryStatus	重要	Kafka数据目录状态异常	请参考《MapReduce服务用户指南》的“ALM-38008 Kafka数据目录状态异常”章节。	Kafka数据目录状态异常，会导致该数据目录上所有Partition的当前副本下线，多个节点同时出现数据目录状态异常，可能会导致部分Partition不可用。
存在单副本的Topic	topicsWithSingleReplica	警告	存在单副本的Topic	请参考《MapReduce服务用户指南》的“ALM-38010 存在单副本的Topic”章节。	单副本的Topic存在单点故障风险，当副本所在节点异常时，会直接导致Partition没有leader，影响该Topic上的业务。
KrbServer服务不可用	krbServerServiceUnavailable	紧急	KrbServer服务不可用	请参考《MapReduce服务用户指南》的“ALM-25500 KrbServer服务不可用”章节。	告警发生时，不能对集群中的组件KrbServer进行任何操作。其它组件的KrbServer认证将受影响。集群中依赖KrbServer的组件运行状态将为故障。
Kudu服务不可用	kuduServiceUnavailable	紧急	Kudu服务不可用	请参考《MapReduce服务用户指南》的“ALM-29100 Kudu服务不可用”章节。	用户无法使用Kudu服务。
LdapServer服务不可用	ldapServerServiceUnavailable	紧急	LdapServer服务不可用	请参考《MapReduce服务用户指南》的“ALM-25000 LdapServer服务不可用”章节。	告警发生时，不能对集群中的KrbServer和LdapServer用户进行任何操作。例如，无法在FusionInsight Manager页面添加、删除或修改任何用户、用户组或角色，也无法修改用户密码。集群中原有的用户验证不受影响。
LdapServer数据同步异常	abnormalLdapServerDataSynchronization	紧急	LdapServer数据同步异常	请参考《MapReduce服务用户指南》的“ALM-25004 LdapServer数据同步异常”章节。	LdapServer数据不一致时，有可能是Manager上的LdapServer数据损坏，也有可能是集群上的LdapServer数据损坏，此时数据损坏的LdapServer进程将无法对外提供服务，影响Manager和集群的认证功能。
Nscd服务异常	nscdServiceIsAbnormal	重要	Nscd服务异常	请参考《MapReduce服务用户指南》的“ALM-25005 Nscd服务异常”章节。	nscd服务异常时，可能会影响该节点从LdapServer上同步数据，此时，使用id命令可能会获取不到Ldap中的数据，影响上层业务。
Sssd服务异常	sssdServiceIsAbnormal	重要	Sssd服务异常	请参考《MapReduce服务用户指南》的“ALM-25006 Sssd服务异常”章节。	sssd服务异常时，可能会影响该节点从LdapServer上同步数据，此时，使用id命令可能会获取不到ldap中的数据，影响上层业务。
Loader服务不可用	loaderServiceUnavailable	紧急	Loader服务不可用	请参考《MapReduce服务用户指南》的“ALM-23001 Loader服务不可用”章节。	如果Loader服务不可用，数据加载，导入，转换的功能也不可用。
Oozie服务不可用	oozieServiceUnavailable	紧急	Oozie服务不可用	请参考《MapReduce服务用户指南》的“ALM-17003 Oozie服务不可用”章节。	无法使用Oozie服务提交作业。
Ranger服务不可用	rangerServiceUnavailable	紧急	Ranger服务不可用	请参考《MapReduce服务用户指南》的“ALM-45275 Ranger服务不可用”章节。	当Ranger服务不可用时，Ranger无法正常工作，Ranger原生UI无法访问。
RangerAdmin状态异常	abnormalRangerAdminStatus	重要	RangerAdmin状态异常	请参考《MapReduce服务用户指南》的“ALM-45276 RangerAdmin状态异常”章节。	当存在单个RangerAdmin状态异常时，不影响Ranger原生UI访问；当两个RangerAdmin状态异常时，Ranger原生UI无法访问，无法执行创建、修改、删除策略等操作。
Spark2x服务不可用	spark2xServiceUnavailable	紧急	Spark2x服务不可用	请参考《MapReduce服务用户指南》的“ALM-43001 Spark2x服务不可用”章节。	用户提交的Spark任务执行失败。
Storm服务不可用	stormServiceUnavailable	紧急	Storm服务不可用	请参考《MapReduce服务用户指南》的“ALM-26051 Storm服务不可用”章节。	集群无法对外提供Storm服务，用户无法执行新的Storm任务。
ZooKeeper服务不可用	zooKeeperServiceUnavailable	紧急	ZooKeeper服务不可用	请参考《MapReduce服务用户指南》的“ALM-13000 ZooKeeper服务不可用”章节。	ZooKeeper无法为上层组件提供协调服务，依赖ZooKeeper的组件可能无法正常运行。
ZooKeeper中组件顶层目录的配额设置失败	failedToSetTheQuotaOfTopDirectoriesOf ZooKeeperComponent	次要	ZooKeeper中组件顶层目录的配额设置失败	请参考《MapReduce服务用户指南》的“ALM-13005 ZooKeeper中组件顶层目录的配额设置失败”章节。	组件可以向对应的ZooKeeper顶层目录中写入大量数据，导致Zookeeper服务不可用。

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

查看所有产品

云监控服务

云监控服务

活动

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

查看所有产品

云监控服务

云监控服务