在修改了大数据组件的配置项后,需要重启对应的服务来使得配置生效,使用普通重启方式会并发重启所有服务或实例,可能引起业务断服。为了确保服务重启过程中,尽量减少或者不影响业务运行,可以通过滚动重启来按批次重启服务或实例(对于有主备状态的实例,会先重启备实例,再重启主实例)。滚动重启方式的重启时间比普通重启时间久。
当前MRS集群中,服务和实例是否支持滚动重启如下表所示。
服务 实例 是否支持滚动重启 HDFS
NameNode 是
Zkfc
JournalNode
HttpFS
DataNode
Yarn
ResourceManager
是
NodeManager
Hive
MetaStore
是
WebHCat
HiveServer
Mapreduce
JobHistoryServer
是
HBase
HMaster
是
RegionServer
ThriftServer
RESTServer
Spark
JobHistory
是
JDBCServer
SparkResource
否
Hue
Hue
否
Tez
TezUI
否
Loader
Sqoop
否
Zookeeper
Quorumpeer
是
Kafka
Broker
是
MirrorMaker
否
Flume
Flume
是
MonitorServer
Storm
Nimbus
是
UI
Supervisor
Logviewer
使用限制
- 请在低业务负载时间段进行滚动重启操作。
例如:在滚动重启kafka服务时候, 如果kafka服务业务吞吐量很高(100M/s以上的情况下),会出现kafka服务滚动重启失败的情况。
例如:在滚动重启HBase服务时候,如果原生界面上每个RegionServer上每秒的请求数超过1W,需要增大handle数来预防重启过程中负载过大导致的RegionServer重启失败。
- 重启前需要观察当前hbase的负载请求数(原生界面上每个rs的请求数如果超过1W,需要增大handle数来预防到时候负载不过来)
- 在集群Core节点个数小于6个的情况下,可能会出现业务短时间受影响的情况。
- 请优先使用滚动重启操作来重启实例或服务,并勾选“仅重启配置过期的实例”。
滚动重启服务
在MRS Manager,单击“服务管理”,选择需要滚动重启的服务,进入服务页面。
- 在“服务状态”页签单击“更多”,选择“滚动重启服务”。
- 输入管理员密码后,弹出“滚动重启服务”页面,勾选“仅重启配置过期的实例”,单击确认,开始滚动重启服务。
- 滚动重启任务完成后,单击“完成”。
滚动重启实例
在MRS Manager,单击“服务管理”,选择需要滚动重启的服务,进入服务页面。
- 在“实例”页签,勾选要重启的实例,单击“更多”,选择“滚动重启实例”。
- 输入管理员密码后,弹出“滚动重启实例”页面,勾选“仅重启配置过期的实例”,单击确认,开始滚动重启实例。
- 滚动重启任务完成后,单击“完成”。
滚动重启集群
在MRS Manager,单击“服务管理”,进入服务管理页面。
- 单击“更多”,选择“滚动重启集群”。
- 输入管理员密码后,弹出“滚动重启集群”页面,勾选“仅重启配置过期的实例”,单击确认,开始滚动重启集群。
- 滚动重启任务完成后,单击“完成”。
滚动重启参数说明
滚动重启参数说明如下表所示。
参数名称 | 描述 |
---|---|
仅重启配置过期的实例 | 是否只重启集群内修改过配置的实例。 |
数据节点滚动重启并发数 | 采用分批并发滚动重启策略的数据节点实例每一个批次重启的实例数,默认为1,取值范围为1~20。只对数据节点有效。 |
批次时间间隔 | 滚动重启实例批次之间的间隔时间,默认为0,取值范围为0~2147483647,单位为秒。 说明:设置批次时间间隔参数可以增加滚动重启期间大数据组件进程的稳定性。建议设置该参数为非默认值,例如10。 |
批次容错阈值 | 滚动重启实例批次执行失败容错次数,默认为0,即表示任意一个批次的实例重启失败后,滚动重启任务终止。取值范围为0~214748364。 |
典型场景操作步骤
在MRS Manager,单击“服务管理”,选择HBase,进入HBase服务页面。
- 单击“服务配置”页签,修改HBase某个参数并保存配置,在出现如下弹窗后,单击“确定”进行保存。
说明不要勾选“重新启动受影响的服务或实例”,该处重启是普通重启方式,会并发重启所有服务或实例,引起业务断服。
- 保存配置完成后,单击“完成”。
- 选择“服务状态”页签。
- 在“服务状态”页签单击“更多”,选择“滚动重启服务”。
- 输入管理员密码后,弹出“滚动重启服务”页面,勾选“仅重启配置过期的实例”,单击确认,开始滚动重启。
- 滚动重启任务完成后,单击“完成”。