翼MapReduce(翼MR)是一种基于云计算平台的数据处理分析服务,打造了高可靠、高安全、易使用的运行维护平台,对外提供大容量数据的存储和分析能力,可解决用户实时性要求不高的海量数据存储和处理需求,可以独立申请和使用托管Hadoop、Spark、HBase和Hive组件。
支持的事件列表如下:
事件名称 | 事件ID | 事件级别 | 事件说明 | 处理建议 | 事件影响 |
---|---|---|---|---|---|
DBServer主备倒换 | dbServerSwitchover | 次要 | DBServer主备倒换 | 主备倒换需要和运维人员确认是否为正常操作导致。 | 连续触发主备倒换可能影响Hive服务正常使用,导致Hive服务不可用。 |
Flume Channel溢出 | flumeChannelOverflow | 次要 | Flume Channel溢出 | 确认flume的channel配置是否合理,业务量是否有突增。 | Flume任务无法正常写入数据到后端。 |
NameNode主备倒换 | namenodeSwitchover | 次要 | NameNode主备倒换 | 主备倒换需要和运维人员确认是否为正常操作导致。 | 连续触发主备倒换可能影响HDFS服务正常使用,读写HDFS文件可能失败。 |
ResourceManager主备倒换 | resourceManagerSwitchover | 次要 | ResourceManager主备倒换 | 主备倒换需要和运维人员确认是否为正常操作导致 | 连续触发主备倒换可能影响Yarn服务正常使用,导致任务出现异常甚至失败 |
JobHistoryServer主备倒换 | jobHistoryServerSwitchover | 次要 | JobHistoryServer主备倒换 | 主备倒换需要和运维人员确认是否为正常操作导致 | 连续触发主备倒换可能影响MapReduce服务正常使用,导致任务日志读取异常 |
HMaster主备倒换 | hmasterFailover | 次要 | HMaster主备倒换 | 主备倒换需要和运维人员确认是否为正常操作导致 | 连续触发主备倒换可能影响HBase服务正常使用 |
Hue发生主备切换 | hueFailover | 次要 | Hue发生主备切换 | 主备倒换需要和运维人员确认是否为正常操作导致 | 主备倒换可能影响HUE服务正常使用,导致页面无法使用等问题 |
Impala HaProxy服务发生主备切换 | impalaHaProxyFailover | 次要 | Impala HaProxy服务发生主备切换 | 主备倒换需要和运维人员确认是否为正常操作导致 | 连续触发主备倒换可能影响Impala服务正常使用 |
Impala StateStoreCatalog服务发生主备切换 | impalaStateStoreCatalogFailover | 次要 | Impala StateStoreCatalog服务发生主备切换 | 主备倒换需要和运维人员确认是否为正常操作导致 | 连续触发主备倒换可能影响Impala服务正常使用 |
LdapServer主备倒换 | ldapServerFailover | 次要 | LdapServer主备倒换 | 主备倒换需要和运维人员确认是否为正常操作导致 | 连续触发主备倒换可能影响LdapServer服务正常使用 |
Loader主备倒换 | loaderSwitchover | 次要 | Loader主备倒换 | 主备倒换需要和运维人员确认是否为正常操作导致 | 主备倒换可能影响Loader服务正常使用 |
Manager主备倒换 | managerSwitchover | 提示 | Manager主备倒换 | 主备倒换需要和运维人员确认是否为正常操作导致 | Manager主备倒换可能导致Manager页面无法正常访问,部分监控可能出现异常数值 |
作业执行失败 | jobRunningFailed | 提示 | 作业执行失败 | 查看作业管理页面,确认失败任务是否有异常 | 作业执行过程出现失败 |
作业被终止 | jobkilled | 提示 | 作业被终止 | 确认任务是否人为下发终止命令 | 作业执行过程被终止 |
Oozie工作流执行失败 | oozieWorkflowExecutionFailure | 次要 | Oozie工作流执行失败 | 查看Oozie日志,确认任务失败原因 | Oozie工作流执行失败 |
Oozie定时任务执行失败 | oozieScheduledJobExecutionFailure | 次要 | Oozie定时任务执行失败 | 查看Oozie日志,确认任务失败原因 | Oozie定时任务执行失败 |
ClickHouse服务不可用 | clickHouseServiceUnavailable | 紧急 | ClickHouse服务不可用 | 请参考《MapReduce服务用户指南》的“ALM-45425 ClickHouse服务不可用”章节。 | ClickHouse服务异常,无法通过FusionInsight Manager对ClickHouse进行集群操作,无法使用ClickHouse服务功能。 |
DBService服务不可用 | dbServiceServiceUnavailable | 紧急 | DBService服务不可用 | 请参考《MapReduce服务用户指南》的“ALM-27001 DBService服务不可用”章节。 | 数据库服务不可用,无法对上层服务提供数据入库、查询等功能,使部分服务异常。 |
DBService主备节点间心跳中断 | dbServiceHeartbeatInterruption BetweentheActiveAndStandbyNodes |
重要 | DBService主备节点间心跳中断 | 请参考《MapReduce服务用户指南》的“ALM-27003 DBService主备节点间心跳中断”章节。 | DBService主备间心跳中断时只有一个节点提供服务,一旦该节点故障,再无法切换到备节点,就会服务不可用。 |
DBService主备数据不同步 | dataInconsistencyBetween ActiveAndStandbyDBServices |
紧急 | DBService主备数据不同步 | 请参考《MapReduce服务用户指南》的“ALM-27004 DBService主备数据不同步”章节。 | 主备DBServer数据不同步,如果此时主实例异常,则会出现数据丢失或者数据异常的情况。 |
数据库进入只读模式 | databaseEnterstheReadOnlyMode | 紧急 | 数据库进入只读模式 | 请参考《MapReduce服务用户指南》的“ALM-27007 数据库进入只读模式”章节。 | 数据库进入只读模式,业务数据丢失。 |
Flume服务不可用 | flumeServiceUnavailable | 紧急 | Flume服务不可用 | 请参考《MapReduce服务用户指南》的“ALM-24000 Flume服务不可用”章节。 | 当Flume服务不可用时,Flume不能正常工作,数据传输业务中断。 |
Flume Agent异常 | flumeAgentException | 重要 | Flume Agent异常 | 请参考《MapReduce服务用户指南》的“ALM-24001 Flume Agent异常”章节。 | 产生告警的Flume Agent实例无法正常启动,定义在该实例下的数据传输任务暂时中断,对于实时数据传输,会丢失实时数据。 |
Flume Client连接中断 | flumeClientDisconnected | 重要 | Flume Client连接中断 | 请参考《MapReduce服务用户指南》的“ALM-24003 Flume Client连接中断”章节。 | 产生告警的Flume Client无法与Flume Server端进行通信,Flume Client端的数据无法传输到Flume Server端。 |
Flume读取数据异常 | exceptionOccursWhenFlumeReadsData | 重要 | Flume读取数据异常 | 请参考《MapReduce服务用户指南》的“ALM-24004 Flume读取数据异常”章节。 | 如果数据源有数据,Flume Source持续读取不到数据,数据采集会停止。 |
Flume传输数据异常 | exceptionOccursWhenFlumeTransmitsData | 重要 | Flume传输数据异常 | 请参考《MapReduce服务用户指南》的“ALM-24005 Flume传输数据异常”章节。 | Flume Channel的磁盘空间使用量有继续增长的趋势,将会使数据导入到指定目的地的时间增长,当Flume Channel的磁盘空间使用量达到100%时会导致Flume Agent进程暂停工作。 |
Flume 证书文件非法或已损坏 | flumeCertificateFileIsinvalid | 重要 | Flume 证书文件非法或已损坏 | 请参考《MapReduce服务用户指南》的“ALM-24010 Flume证书文件非法或已损坏”章节。 | Flume证书文件已经非法或损坏,功能受限,Flume客户端将无法访问Flume服务端。 |
Flume 证书文件即将过期 | flumeCertificateFileIsAboutToExpire | 重要 | Flume 证书文件即将过期 | 请参考《MapReduce服务用户指南》的“ALM-24011 Flume证书文件即将过期”章节。 | Flume证书文件即将失效,对系统目前运行无影响。 |
Flume 证书文件已过期 | flumeCertificateFileIsExpired | 重要 | Flume 证书文件已过期 | 请参考《MapReduce服务用户指南》的“ALM-24012 Flume证书文件已过期”章节。 | Flume证书文件已过期,功能受限,Flume客户端将无法访问Flume服务端。 |
Flume MonitorServer证书文件失效 | flumeMonitorServerCertificateFileIsInvalid | 重要 | Flume MonitorServer证书文件失效 | 请参考《MapReduce服务用户指南》的“ALM-24013 Flume MonitorServer证书文件非法或已损坏”章节。 | MonitorServer证书文件已经非法或损坏,功能受限,Flume客户端将无法访问Flume服务端。 |
Flume MonitorServer证书文件即将过期 | flumeMonitorServerCertificate FileIsAboutToExpire | 重要 | Flume MonitorServer证书文件即将过期 | 请参考《MapReduce服务用户指南》的“ALM-24014 Flume MonitorServer证书文件即将过期”章节。 | MonitorServer证书文件即将失效,对系统目前运行无影响。 |
Flume MonitorServer证书文件已过期 | flumeMonitorServerCertificateFileIsExpired | 重要 | Flume MonitorServer证书文件已过期 | 请参考《MapReduce服务用户指南》的“ALM-24015 Flume MonitorServer证书文件已过期”章节。 | MonitorServer证书文件已过期,功能受限,Flume客户端将无法访问Flume服务端。 |
HDFS服务不可用 | hdfsServiceUnavailable | 紧急 | HDFS服务不可用 | 请参考《MapReduce服务用户指南》的“ALM-14000 HDFS服务不可用”章节。 | 无法为基于HDFS服务的HBase和MapReduce等上层部件提供服务。用户无法读写文件。 |
NameService服务异常 | nameServiceServiceUnavailable | 重要 | NameService服务异常 | 请参考《MapReduce服务用户指南》的“ALM-14010 NameService服务异常”章节。 | 无法为基于该NameService服务的HBase和MapReduce等上层部件提供服务。用户无法读写文件。 |
DataNode数据目录配置不合理 | datanodeDataDirectoryIsNotConfiguredProperly | 重要 | DataNode数据目录配置不合理 | 请参考《MapReduce服务用户指南》的“ALM-14011 DataNode数据目录配置不合理”章节。 | 如果将DataNode数据目录挂载在根目录等系统关键目录,长时间运行后会将根目录写满,导致系统故障。不合理的DataNode数据目录配置,会造成HDFS的性能下降。 |
Journalnode数据不同步 | journalnodeIsOutOfSynchronization | 重要 | Journalnode数据不同步 | 请参考《MapReduce服务用户指南》的“ALM-14012 Journalnode数据不同步”章节。 | 当一个JournalNode节点工作状态异常时,其数据就会与其他JournalNode节点的数据不同步。如 果超过一半的JournalNode节点的数据不同步时,NameNode将无法工作,导致HDFS服务不可用。 |
NameNode FsImage文件更新失败 | failedToUpdateTheNameNodeFsImageFile | 重要 | NameNode FsImage文件更新失败 | 请参考《MapReduce服务用户指南》的“ALM-14013 NameNode FsImage文件更新失败”章节。 | 如果主NameNode数据目录的FsImage没有更新,则说明HDFS元数据合并功能异常,需要修复。 如不修复,HDFS在运行一段时间后,Editlog会一直增长。此时如果重启HDFS,由于要加载非常多的Editlog,会导致启动非常耗时。另外,该告警的产生也说明备NameNode功能异常,导致NameNode的HA机制失效。一旦主NameNode故障,则整个HDFS服务将不可用。 |
DataNode磁盘故障 | datanodeDiskFault | 重要 | DataNode磁盘故障 | 请参考《MapReduce服务用户指南》的“ALM-14027 DataNode磁盘故障”章节。 | 上报DataNode磁盘故障告警时,表示该DataNode节点上存在故障的磁盘分区,可能会导致已写入的文件丢失。 |
Yarn服务不可用 | yarnServiceUnavailable | 紧急 | Yarn服务不可用 | 请参考《MapReduce服务用户指南》的“ALM-18000 Yarn服务不可用”章节。 | 集群无法提供Yarn服务。用户无法执行新的application。已提交的application无法执行。 |
NodeManager心跳丢失 | nodemanagerHeartbeatLost | 重要 | NodeManager心跳丢失 | 请参考《MapReduce服务用户指南》的“ALM-18002 NodeManager心跳丢失”章节。 | 丢失的NodeManager节点无法提供Yarn服务。容器减少,集群性能下降。 |
NodeManager不健康 | nodemanagerUnhealthy | 重要 | NodeManager不健康 | 请参考《MapReduce服务用户指南》的“ALM-18003 NodeManager不健康”章节。 | 故障的NodeManager节点无法提供Yarn服务。容器减少,集群性能下降。 |
Yarn 任务执行超时 | yarnApplicationTimeout | 次要 | Yarn 任务执行超时 | 请参考《MapReduce服务用户指南》的“ALM-18020 Yarn任务执行超时”章节。 | 任务执行超时后的运行时间内,该告警一直存在,但任务仍继续正常执行,没有任何影响。 |
Mapreduce服务不可用 | mapreduceServiceUnavailable | 紧急 | Mapreduce服务不可用 | 请参考《MapReduce服务用户指南》的“ALM-18021 Mapreduce服务不可用”章节。 | 集群无法提供Mapreduce服务,如无法通过Mapreduce查看任务日志,无法提供Mapreduce服务的日志归档功能等。 |
Yarn队列资源不足 | insufficientYarnQueueResources | 次要 | Yarn队列资源不足 | 请参考《MapReduce服务用户指南》的“ALM-18022 Yarn队列资源不足”章节。 | 应用任务结束时间变长。新应用提交后长时间无法运行。 |
HBase服务不可用 | hbaseServiceUnavailable | 紧急 | HBase服务不可用 | 请参考《MapReduce服务用户指南》的“ALM-19000 HBase服务不可用”章节。 | 无法进行数据读写和创建表等操作。 |
HBase系统表目录或文件丢失 | systemTablePathOrFileOfHBaseIsMissing | 紧急 | HBase系统表目录或文件丢失 | 请参考《MapReduce服务用户指南》的“ALM-19012 HBase系统表目录或文件丢失”章节。 | HBase服务重启/启动失败。 |
Hive服务不可用 | hiveServiceUnavailable | 紧急 | Hive服务不可用 | 请参考《MapReduce服务用户指南》的“ALM-16004 Hive服务不可用”章节。 | Hive无法提供数据加载,查询,提取服务。 |
Hive数据仓库被删除 | hiveDataWarehouseIsDeleted | 紧急 | Hive数据仓库被删除 | 请参考《MapReduce服务用户指南》的“ALM-16045 Hive数据仓库被删除”章节。 | Hive默认数据仓库被删除,会导致在默认数据仓库中创建库、创建表失败,影响业务正常使用。 |
Hive数据仓库权限被修改 | hiveDataWarehousePermissionIsModified | 紧急 | Hive数据仓库权限被修改 | 请参考《MapReduce服务用户指南》的“ALM-16046 Hive数据仓库权限被修改”章节。 | Hive默认数据仓库的权限被修改,会影响当前用户,用户组,其他用户在默认数据仓库中创建库、创建表等操作的操作权限范围。会扩大或缩小权限。 |
HiveServer已从Zookeeper注销 | hiveServerHasBeenDeregisteredFromZookeeper | 重要 | HiveServer已从Zookeeper注销 | 请参考《MapReduce服务用户指南》的“ALM-16047 HiveServer已从Zookeeper注销”章节。 | 当无法在Zookeeper上读取到Hive的配置,将会导致HiveServer不可用。 |
tez或者spark库路径不存在 | tezlibOrSparklibIsNotExist | 重要 | tez或者spark库路径不存在 | 请参考《MapReduce服务用户指南》的“ALM-16048 Tez或者Spark库路径不存在”章节。 | Tez或者Spark库路径不存在,会影响Hive on Tez,Hive on Spark的功能。 |
Hue服务不可用 | hueServiceUnavailable | 紧急 | Hue服务不可用 | 请参考《MapReduce服务用户指南》的“ALM-20002 Hue服务不可用”章节。 | 系统无法提供数据加载,查询,提取服务。 |
Impala服务不可用 | impalaServiceUnavailable | 紧急 | Impala服务不可用 | 请参考《MapReduce服务用户指南》的“ALM-29000 Impala服务不可用”章节。 | Impala服务异常,无法通过FusionInsight Manager对Impala进行集群操作,无法使用Impala服务功能。 |
Kafka服务不可用 | kafkaServiceUnavailable | 紧急 | Kafka服务不可用 | 请参考《MapReduce服务用户指南》的“ALM-38000 Kafka服务不可用”章节。 | 集群无法对外提供Kafka服务,用户无法执行新的Kafka任务。 |
Kafka默认用户状态异常 | statusOfKafkaDefaultUserIsAbnormal | 紧急 | Kafka默认用户状态异常 | 请参考《MapReduce服务用户指南》的“ALM-38007 Kafka默认用户状态异常”章节。 | Kafka默认用户状态异常,会影响Broker之间的元数据同步,以及Kafka与ZooKeeper之间的交互,进而影响业务生产、消费和Topic的创建、删除等操作。 |
Kafka数据目录状态异常 | abnormalKafkaDataDirectoryStatus | 重要 | Kafka数据目录状态异常 | 请参考《MapReduce服务用户指南》的“ALM-38008 Kafka数据目录状态异常”章节。 | Kafka数据目录状态异常,会导致该数据目录上所有Partition的当前副本下线,多个节点同时出现数据目录状态异常,可能会导致部分Partition不可用。 |
存在单副本的Topic | topicsWithSingleReplica | 警告 | 存在单副本的Topic | 请参考《MapReduce服务用户指南》的“ALM-38010 存在单副本的Topic”章节。 | 单副本的Topic存在单点故障风险,当副本所在节点异常时,会直接导致Partition没有leader,影响该Topic上的业务。 |
KrbServer服务不可用 | krbServerServiceUnavailable | 紧急 | KrbServer服务不可用 | 请参考《MapReduce服务用户指南》的“ALM-25500 KrbServer服务不可用”章节。 | 告警发生时,不能对集群中的组件KrbServer进行任何操作。其它组件的KrbServer认证将受影响。集群中依赖KrbServer的组件运行状态将为故障。 |
Kudu服务不可用 | kuduServiceUnavailable | 紧急 | Kudu服务不可用 | 请参考《MapReduce服务用户指南》的“ALM-29100 Kudu服务不可用”章节。 | 用户无法使用Kudu服务。 |
LdapServer服务不可用 | ldapServerServiceUnavailable | 紧急 | LdapServer服务不可用 | 请参考《MapReduce服务用户指南》的“ALM-25000 LdapServer服务不可用”章节。 | 告警发生时,不能对集群中的KrbServer和LdapServer用户进行任何操作。 例如,无法在FusionInsight Manager页面添加、删除或修改任何用户、用户组或角色,也无法修改用户密码。集群中原有的用户验证不受影响。 |
LdapServer数据同步异常 | abnormalLdapServerDataSynchronization | 紧急 | LdapServer数据同步异常 | 请参考《MapReduce服务用户指南》的“ALM-25004 LdapServer数据同步异常”章节。 | LdapServer数据不一致时,有可能是Manager上的LdapServer数据损坏,也有可能是集群上的LdapServer数据损坏,此时数据损坏的LdapServer进程将无法对外提供服务,影响Manager和集群的认证功能。 |
Nscd服务异常 | nscdServiceIsAbnormal | 重要 | Nscd服务异常 | 请参考《MapReduce服务用户指南》的“ALM-25005 Nscd服务异常”章节。 | nscd服务异常时,可能会影响该节点从LdapServer上同步数据,此时,使用id命令可能会获取不到Ldap中的数据,影响上层业务。 |
Sssd服务异常 | sssdServiceIsAbnormal | 重要 | Sssd服务异常 | 请参考《MapReduce服务用户指南》的“ALM-25006 Sssd服务异常”章节。 | sssd服务异常时,可能会影响该节点从LdapServer上同步数据,此时,使用id命令可能会获取不到ldap中的数据,影响上层业务。 |
Loader服务不可用 | loaderServiceUnavailable | 紧急 | Loader服务不可用 | 请参考《MapReduce服务用户指南》的“ALM-23001 Loader服务不可用”章节。 | 如果Loader服务不可用,数据加载,导入,转换的功能也不可用。 |
Oozie服务不可用 | oozieServiceUnavailable | 紧急 | Oozie服务不可用 | 请参考《MapReduce服务用户指南》的“ALM-17003 Oozie服务不可用”章节。 | 无法使用Oozie服务提交作业。 |
Ranger服务不可用 | rangerServiceUnavailable | 紧急 | Ranger服务不可用 | 请参考《MapReduce服务用户指南》的“ALM-45275 Ranger服务不可用”章节。 | 当Ranger服务不可用时,Ranger无法正常工作,Ranger原生UI无法访问。 |
RangerAdmin状态异常 | abnormalRangerAdminStatus | 重要 | RangerAdmin状态异常 | 请参考《MapReduce服务用户指南》的“ALM-45276 RangerAdmin状态异常”章节。 | 当存在单个RangerAdmin状态异常时,不影响Ranger原生UI访问;当两个RangerAdmin状态异常时,Ranger原生UI无法访问,无法执行创建、修改、删除策略等操作。 |
Spark2x服务不可用 | spark2xServiceUnavailable | 紧急 | Spark2x服务不可用 | 请参考《MapReduce服务用户指南》的“ALM-43001 Spark2x服务不可用”章节。 | 用户提交的Spark任务执行失败。 |
Storm服务不可用 | stormServiceUnavailable | 紧急 | Storm服务不可用 | 请参考《MapReduce服务用户指南》的“ALM-26051 Storm服务不可用”章节。 | 集群无法对外提供Storm服务,用户无法执行新的Storm任务。 |
ZooKeeper服务不可用 | zooKeeperServiceUnavailable | 紧急 | ZooKeeper服务不可用 | 请参考《MapReduce服务用户指南》的“ALM-13000 ZooKeeper服务不可用”章节。 | ZooKeeper无法为上层组件提供协调服务,依赖ZooKeeper的组件可能无法正常运行。 |
ZooKeeper中组件顶层目录的配额设置失败 | failedToSetTheQuotaOfTopDirectoriesOf ZooKeeperComponent |
次要 | ZooKeeper中组件顶层目录的配额设置失败 | 请参考《MapReduce服务用户指南》的“ALM-13005 ZooKeeper中组件顶层目录的配额设置失败”章节。 | 组件可以向对应的ZooKeeper顶层目录中写入大量数据,导致Zookeeper服务不可用。 |