总览
登录FusionInsight Manager以后,选择“集群 > 待操作集群的名称 > 服务”后,打开服务管理页面,包含功能区和服务列表。
详见下图:服务管理页面
功能区
服务管理页面的功能区支持选择视图类型,以及通过服务类型筛选和搜索服务。通过高级搜索可以根据“运行状态”和“配置状态”选择所需要的服务。
服务列表
服务管理页面的服务列表包含了集群中所有已安装的服务。如果选择“平铺视图”,则显示为窗格样式;如果选择“列表视图”,则显示为表格样式。
说明本章节默认以“平铺视图”进行介绍。
服务列表可显示每个服务的运行状态、配置状态、角色的类型以及对应的实例个数。同时可以执行部分服务维护任务,例如启动、停止、重启服务等。
服务运行状态
状态 | 说明 |
---|---|
良好 | 表示服务当前运行正常。 |
故障 | 表示服务当前无法正常工作。 |
亚健康 | 表示服务部分增强功能无法正常工作。 |
未启动 | 表示服务已停止。 |
未知 | 表示服务的初始状态信息无法检测。 |
正在启动 | 表示服务正在执行启动过程。 |
正在停止 | 表示服务正在执行停止过程。 |
启动失败 | 表示服务启动操作失败。 |
停止失败 | 表示服务停止操作失败。 |
说明
服务的运行状态为“故障”,会触发告警,请根据告警信息处理。
HBase、Hive、Spark和Loader可显示“亚健康”(Subhealthy)状态。
Yarn已安装且不正常时,HBase处于“亚健康”状态。如启用多实例功能,则已安装的所有HBase服务实例处于“亚健康”状态。
HBase已安装且状态不正常时,Hive、Spark和Loader处于“亚健康”状态。
启用多实例功能后,任意一个HBase服务实例已安装且不正常时,Loader处于“亚健康”状态。
启用多实例功能后,某一个HBase服务实例已安装且不正常时,对应的Hive和Spark服务实例处于“亚健康”状态,即HBase2已安装且不正常时,Hive2和Spark2为“亚健康”状态。
服务配置状态
状态 | 说明 |
---|---|
已同步 | 表示服务所有参数配置已在集群内全部生效。 |
配置过期 | 表示修改服务参数后,最新的配置未同步且未生效,需要同步配置且重启相应服务。可点击配置状态后的图标查看过期的配置项。 |
失败 | 表示同步参数配置过程中出现通信或读写异常等操作。尝试使用“同步配置”恢复。 |
正在同步 | 表示正在同步服务参数配置。 |
未知 | 表示服务配置的初始状态信息无法检测。 |
服务列表中单击服务对应菜单,可对服务进行简单的维护管理操作,具体如下表所示。
基本维护管理功能
操作入口 | 说明 |
---|---|
“启动服务” | 启动集群中指定服务。 |
“停止服务” | 将集群中指定服务停止。 |
“重启服务” | 将集群中指定服务重启。 说明 某个服务可能被其他服务依赖,重启该服务则导致其他服务不可用,需要勾选“同时重启上层服务”。请根据对话框的服务列表确认是否可以执行操作,集群中由于依赖关系服务的重启为串行进行。单个服务的重启时长如下表“重启时长”所示 |
“滚动重启服务” | 为集群中指定服务提供不中断业务的重启操作。具体参数配置可参考滚动重启集群章节中的“滚动重启参数”表 |
“同步配置” | 为集群中指定服务启用新的配置参数。 为集群中“配置状态”为“配置过期”的服务,下发新的配置参数。 说明 部分服务同步配置后需重启服务使配置生效。 |
重启时长
服务名称 | 重启时长 | 启动时长 | 附加说明 |
---|---|---|---|
ClickHouse | 4min | ClickHouseServer:2min ClickHouseBalancer:2min |
- |
HDFS | 10min+x | NameNode:4min+x DataNode:2min JournalNode:2min Zkfc:2min |
x为NameNode元数据加载时长,每千万文件大约耗时2分钟,例如5000万文件x为10min。由于受DataNode数据块上报影响启动时间有一定浮动。 |
Yarn | 5min+x | ResourceManager:3min+x NodeManager:2min |
x为ResourceManager保留任务数恢复时长,每1万保留任务大约需要1分钟 |
Mapreduce | 2min+x | JobHistoryServer:2min+x | x为历史任务扫描时长,每10万任务大约2.5min |
ZooKeeper | 2min+x | quorumpeer:2min+x | x为加载znode节点时长,每100万znode大约1min |
Hive | 3.5min | HiveServer:3min MetaStore:1min30s WebHcat:1min Hive整体服务:3min |
- |
Spark2x | 5min | JobHistory2x:5min SparkResource2x:5min JDBCServer2x:5min |
- |
Flink | 4min | FlinkResource:1min FlinkServer:3min |
- |
Kafka | 2min+x | Broker:1min+x | x为数据恢复时长,单实例20000 partition启动所需时长大约2mins。 |
Storm | 6min | Nimbus:3mins UI:1min Supervisor:1min Logviewer:1min |
- |
Flume | 3min | Flume:2 min MonitorServer:1min |
- |