searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

Doris fe启动失败

2023-12-19 03:01:09
78
0
有两个节点的fe,都挂了,重启发现以前master节点时报:
2022-11-25 11:27:25,797 INFO (UNKNOWN xx.xx.xx.40_9010_1657260956519(-1)|1) [Catalog.waitForReady():876] wait catalog to be ready. FE type: UNKNOWN. is ready: false
 
官网运维说明:
  1. 本次FE启动时获取到的本机IP和上次启动不一致,通常是因为没有正确设置 
priority_network 而导致 FE 启动时匹配到了错误的 IP 地址。需修改priority_network 后重启 FE。
  1. 集群内多数 Follower FE 节点未启动。比如有 3 个 Follower,只启动了一个。此时需要将另外至少一个 FE 也启动,FE 可选举组方能选举出 Master 已提供服务。
由于一直都有配置IP,所以肯定是第二个原因,所以尝试启动另一个FE,注意,此时上面那个是没完全启动的(9030 mysql查询端口)根本没起来
此时另一个FE报了另外一个错
 
2022-11-25 13:49:29,753 ERROR (main|1) [BDBEnvironment.setup():198] error to open replicated environment. will exit. com.sleepycat.je.EnvironmentFailureException: (JE 18.3.12) xx.xx.xx.39_9010_1657261636912(-1):/home/data/doris-meta/bdb recoveryTracker should overlap or follow on disk last VLSN of 40,001,327 recoveryFirst= 40,001,329 UNEXPECTED_STATE_FATAL: Unexpected internal state, unable to continue. Environment is invalid and must be closed.
 
这是 bdbje 的一个 bug,尚未解决。遇到这种情况,只能通过官网《元数据运维文档》中的 故障恢复 进行操作来恢复元数据了。
 
思路:找到元数据最新那个FE节点,以metadata_failure_recovery=true启动,它将会成为master,然后去掉配置重启,把其它follow删掉重新添加
 
show frontends;
ALTER SYSTEM DROP FOLLOWER "xx.xx.xx.39:9010"; //删除非master FE
sh start_fe.sh --helper xx.xx.xx.40:9010 --daemon //重新启动,首次需要 指定master地址
ALTER SYSTEM ADD FOLLOWER "xx.xx.xx.39:9010"; // 重新添加FE
 
 
0条评论
0 / 1000