例行维护-翼MapReduce-用户指南-FusionInsight Manager操作指导（适用于3.x）-集群管理

为了保证系统长期正常、稳定的运行，管理员或维护工程师需要定期对下表所示的项目进行检查，并根据检查出的异常结果排除故障。建议检查人员根据企业管理规范，记录每个任务场景的结果并签名确认。

项目一览表

例行维护周期 任务场景 例行维护内容
每天 检查集群服务状态 l    检查每个服务的运行状态和配置状态是否正常，是否为绿色。
l    检查每个服务中，角色实例的运行状态和配置状态是否正常，是否为绿色。
l    检查每个服务中，角色实例的主备状态是否可以正常显示。
l    检查服务与角色实例的“概览”显示结果是否正常。
检查集群主机状态 l    检查每个主机当前的运行状态是否正常，是否为绿色。
l    检查每个主机当前的磁盘使用率、内存使用率和CPU使用率。关注当前内存与CPU使用率是否处于上升趋势。
检查集群告警信息 检查前一天是否生成了未处理异常告警，包含已自动恢复的告警。
检查集群审计信息 检查前一天是否有“高危”和“危险”的操作，是否已确认操作的合法性。
检查集群备份情况 检查前一天OMS、LDAP、DBService和NameNodeOMS、LDAP和DBServiceOMS、LDAP是否自动备份。
检查健康检查结果 在FusionInsight   Manager执行健康检查，下载健康检查报告确认当前集群是否存在异常状态。建议启用自动健康检查，并及时导出最新的集群健康检查结果，根据检查结果修复不健康项目。
检查网络通讯 检查集群网络工作状态，节点之间的网络通讯是否存在延时。
检查存储状态 检查集群总体数据存储量是否出现了突然的增长：
l    磁盘使用量是否已接近阈值，排查原因，例如是否有业务留下的垃圾数据或冷数据需要清理。
l    业务是否有增长需求，磁盘分区是否需要扩容。
检查日志情况 l    检查是否有失败、失去响应的MapReduce、Spark任务，查看HDFS中“/tmp/logs/${username}/logs/${application   id}”日志文件并排除问题。
l    检查Yarn的任务日志，查看失败、失去响应的任务日志，并删除重复数据。
l    检查Storm的worker日志。
l    备份日志到存储服务器。
每周 用户管理 检查用户密码是否将要过期并通知修改。“机机用户”用户修改密码需要重新下载keytab文件。
分析告警 导出指定周期内产生的告警并分析。
扫描磁盘 对磁盘健康状态进行检查，建议使用专门的磁盘检查工具。
统计存储 分批次排查集群节点磁盘数据是否均匀存储，筛选出明显数据增加或不足的硬盘，并确认硬盘是否正常。
记录变更 安排并记录对集群配置参数和文件实施的操作，为故障分析处理场景提供依据。
每月 分析日志 l    收集集群节点服务器的硬件日志，例如BMC系统日志，并进行分析。
l    收集集群节点服务器的操作系统日志，并进行分析。
l    收集集群日志，并进行分析。
诊断网络 对集群的网络健康状态进行分析。
管理硬件 检查设备运行的机房环境，安排清洁设备。

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

翼MapReduce

翼MapReduce

例行维护周期	任务场景	例行维护内容
每天	检查集群服务状态	l 检查每个服务的运行状态和配置状态是否正常，是否为绿色。 l 检查每个服务中，角色实例的运行状态和配置状态是否正常，是否为绿色。 l 检查每个服务中，角色实例的主备状态是否可以正常显示。 l 检查服务与角色实例的“概览”显示结果是否正常。
	检查集群主机状态	l 检查每个主机当前的运行状态是否正常，是否为绿色。 l 检查每个主机当前的磁盘使用率、内存使用率和CPU使用率。关注当前内存与CPU使用率是否处于上升趋势。
	检查集群告警信息	检查前一天是否生成了未处理异常告警，包含已自动恢复的告警。
	检查集群审计信息	检查前一天是否有“高危”和“危险”的操作，是否已确认操作的合法性。
	检查集群备份情况	检查前一天OMS、LDAP、DBService和NameNodeOMS、LDAP和DBServiceOMS、LDAP是否自动备份。
	检查健康检查结果	在FusionInsight Manager执行健康检查，下载健康检查报告确认当前集群是否存在异常状态。建议启用自动健康检查，并及时导出最新的集群健康检查结果，根据检查结果修复不健康项目。
	检查网络通讯	检查集群网络工作状态，节点之间的网络通讯是否存在延时。
	检查存储状态	检查集群总体数据存储量是否出现了突然的增长： l 磁盘使用量是否已接近阈值，排查原因，例如是否有业务留下的垃圾数据或冷数据需要清理。 l 业务是否有增长需求，磁盘分区是否需要扩容。
	检查日志情况	l 检查是否有失败、失去响应的MapReduce、Spark任务，查看HDFS中“/tmp/logs/${username}/logs/${application id}”日志文件并排除问题。 l 检查Yarn的任务日志，查看失败、失去响应的任务日志，并删除重复数据。 l 检查Storm的worker日志。 l 备份日志到存储服务器。
每周	用户管理	检查用户密码是否将要过期并通知修改。“机机用户”用户修改密码需要重新下载keytab文件。
	分析告警	导出指定周期内产生的告警并分析。
	扫描磁盘	对磁盘健康状态进行检查，建议使用专门的磁盘检查工具。
	统计存储	分批次排查集群节点磁盘数据是否均匀存储，筛选出明显数据增加或不足的硬盘，并确认硬盘是否正常。
	记录变更	安排并记录对集群配置参数和文件实施的操作，为故障分析处理场景提供依据。
每月	分析日志	l 收集集群节点服务器的硬件日志，例如BMC系统日志，并进行分析。 l 收集集群节点服务器的操作系统日志，并进行分析。 l 收集集群日志，并进行分析。
	诊断网络	对集群的网络健康状态进行分析。
	管理硬件	检查设备运行的机房环境，安排清洁设备。

活动

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

翼MapReduce

翼MapReduce