总览

登录FusionInsight Manager以后，选择“集群 > 待操作集群的名称 > 服务”后，打开服务管理页面，包含功能区和服务列表。

详见下图：服务管理页面

图片22.png

功能区

服务管理页面的功能区支持选择视图类型，以及通过服务类型筛选和搜索服务。通过高级搜索可以根据“运行状态”和“配置状态”选择所需要的服务。

服务列表

服务管理页面的服务列表包含了集群中所有已安装的服务。如果选择“平铺视图”，则显示为窗格样式；如果选择“列表视图”，则显示为表格样式。


                说明
                本章节默认以“平铺视图”进行介绍。

服务列表可显示每个服务的运行状态、配置状态、角色的类型以及对应的实例个数。同时可以执行部分服务维护任务，例如启动、停止、重启服务等。

服务运行状态

状态	说明
良好	表示服务当前运行正常。
故障	表示服务当前无法正常工作。
亚健康	表示服务部分增强功能无法正常工作。
未启动	表示服务已停止。
未知	表示服务的初始状态信息无法检测。
正在启动	表示服务正在执行启动过程。
正在停止	表示服务正在执行停止过程。
启动失败	表示服务启动操作失败。
停止失败	表示服务停止操作失败。


                说明
                服务的运行状态为“故障”，会触发告警，请根据告警信息处理。
HBase、Hive、Spark和Loader可显示“亚健康”（Subhealthy）状态。
Yarn已安装且不正常时，HBase处于“亚健康”状态。如启用多实例功能，则已安装的所有HBase服务实例处于“亚健康”状态。
HBase已安装且状态不正常时，Hive、Spark和Loader处于“亚健康”状态。
启用多实例功能后，任意一个HBase服务实例已安装且不正常时，Loader处于“亚健康”状态。
启用多实例功能后，某一个HBase服务实例已安装且不正常时，对应的Hive和Spark服务实例处于“亚健康”状态，即HBase2已安装且不正常时，Hive2和Spark2为“亚健康”状态。

服务配置状态

状态	说明
已同步	表示服务所有参数配置已在集群内全部生效。
配置过期	表示修改服务参数后，最新的配置未同步且未生效，需要同步配置且重启相应服务。可点击配置状态后的图标查看过期的配置项。
失败	表示同步参数配置过程中出现通信或读写异常等操作。尝试使用“同步配置”恢复。
正在同步	表示正在同步服务参数配置。
未知	表示服务配置的初始状态信息无法检测。

服务列表中单击服务对应菜单，可对服务进行简单的维护管理操作，具体如下表所示。

基本维护管理功能

操作入口	说明
“启动服务”	启动集群中指定服务。
“停止服务”	将集群中指定服务停止。
“重启服务”	将集群中指定服务重启。说明某个服务可能被其他服务依赖，重启该服务则导致其他服务不可用，需要勾选“同时重启上层服务”。请根据对话框的服务列表确认是否可以执行操作，集群中由于依赖关系服务的重启为串行进行。单个服务的重启时长如下表“重启时长”所示
“滚动重启服务”	为集群中指定服务提供不中断业务的重启操作。具体参数配置可参考滚动重启集群章节中的“滚动重启参数”表
“同步配置”	为集群中指定服务启用新的配置参数。为集群中“配置状态”为“配置过期”的服务，下发新的配置参数。说明部分服务同步配置后需重启服务使配置生效。

重启时长

服务名称	重启时长	启动时长	附加说明
ClickHouse	4min	ClickHouseServer：2min ClickHouseBalancer：2min	-
HDFS	10min+x	NameNode：4min+x DataNode：2min JournalNode：2min Zkfc：2min	x为NameNode元数据加载时长，每千万文件大约耗时2分钟，例如5000万文件x为10min。由于受DataNode数据块上报影响启动时间有一定浮动。
Yarn	5min+x	ResourceManager：3min+x NodeManager：2min	x为ResourceManager保留任务数恢复时长，每1万保留任务大约需要1分钟
Mapreduce	2min+x	JobHistoryServer：2min+x	x为历史任务扫描时长，每10万任务大约2.5min
ZooKeeper	2min+x	quorumpeer：2min+x	x为加载znode节点时长，每100万znode大约1min
Hive	3.5min	HiveServer：3min MetaStore：1min30s WebHcat：1min Hive整体服务：3min	-
Spark2x	5min	JobHistory2x：5min SparkResource2x：5min JDBCServer2x：5min	-
Flink	4min	FlinkResource：1min FlinkServer：3min	-
Kafka	2min+x	Broker：1min+x	x为数据恢复时长，单实例20000 partition启动所需时长大约2mins。
Storm	6min	Nimbus：3mins UI：1min Supervisor：1min Logviewer：1min	-
Flume	3min	Flume：2 min MonitorServer：1min	-

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

翼MapReduce

翼MapReduce

总览

功能区

服务列表

活动

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

翼MapReduce

翼MapReduce

总览

功能区

服务列表