在修改了大数据组件的配置项后,需要重启对应的服务来使得配置生效,使用普通重启方式会并发重启所有服务或实例,可能引起业务断服。为了确保服务重启过程中,尽量减少或者不影响业务运行,可以通过滚动重启来按批次重启服务或实例(对于有主备状态的实例,会先重启备实例,再重启主实例)。滚动重启方式的重启时间比普通重启时间久。
使用限制
- 请在低业务负载时间段进行滚动重启操作。例如:在滚动重启Kafka服务时候, 如果Kafka服务业务吞吐量很高(100M/s以上的情况下),会出现Kafka服务滚动重启失败的情况。例如:在滚动重启HBase服务时候,如果原生界面上每个RegionServer上每秒的请求数超过1W,需要增大handle数来预防重启过程中负载过大导致的RegionServer重启失败。
- 重启前需要观察当前HBase的负载请求数(原生界面上每个rs的请求数如果超过1W,需要增大handle数来预防到时候负载不过来)。
- 在集群Core节点个数小于6个的情况下,可能会出现业务短时间受影响的情况。
滚动重启集群服务
- 在控制台集群详情页面,单击“前往翼MR Manager”。
- 进入到翼MR Manager操作界面,单击“集群服务”菜单。
- 选择指定集群服务,单击集群服务ICON进入到集群服务的详情页面。
- 单击“运维操作”,单击“滚动重启集群服务”。
- 弹出确认滚动重启集群服务操作弹框,单击确定。
- 进入到滚动重启集群服务操作页面,依次点击“下一步”,滚动重启任务完成后,单击“完成”。
滚动重启实例
- 登录翼MR管理控制台。
- 单击“我的集群”,单击指定的集群名称,进入集群信息页面。
- 单击“翼MR Manager”tab,单击“前往翼MR Manager”。
- 进入到翼MR Manager操作界面,单击“集群服务”菜单。
- 选择指定集群服务,单击集群服务ICON进入到集群服务的详情页面。
- 单击“角色实例”tab。
- 勾选需要操作角色实例前的复选框。
- 单击“操作已选项”,单击“滚动重启实例”。
- 弹出确认滚动重启实例操作弹框,单击确定。
- 进入到滚动重启实例操作页面,依次点击“下一步”,滚动重启任务完成后,单击“完成”。
滚动重启参数说明
滚动重启参数说明如下表所示。
参数名称 | 描述 |
---|---|
单批实例数 | 按照角色实例维度,每1个批次的并发实例数,例如HDFS-DataNode默认为1,输入限制为int的最大值,仅支持输入正整数,当角色实例数小于并发数时,以当前已有实例数为准。 例如:并发数设置为2,HDFS-DataNode的实例数为3,则第一批次执行的实例数是2,第2批次执行的实例数则为1。 |
批次间隔时 | 上个批次成功后与下个批次开始的间隔时间,默认30秒,取值范围1-1800,仅支持输入正整数,单位默认为:秒,不可改。 例如:设置时间为600S批次间隔则表示,前1个批次运行完成后,等待600S后开始下一个批次。 |
批次等待时间 | 上个批次开始后,开始下个批次的等待时间默认30秒,取值范围1-1800,仅支持输入正整数;单位默认为:秒,不可改。 例如:设置时间为600S批次等待则表示,前1个排次开始运行,等待600S后不管前一个批次是否完成运行,都开始下一个批次的运行。 |
实例容错阈值 | 实例执行失败的容错次数为2,默认为0,输入限制为int的最大值,仅支持输入正整数。 例如:设置为0时,即表示任意一个角色实例的操作失败后,滚动操作终止设置为2时,即表示任意3个角色实例的操作失败后,滚动操作才会终止。 |