Doris fe启动失败-天翼云开发者社区

有两个节点的fe，都挂了，重启发现以前master节点时报：

2022-11-25 11:27:25,797 INFO (UNKNOWN xx.xx.xx.40_9010_1657260956519(-1)|1) [Catalog.waitForReady():876] wait catalog to be ready. FE type: UNKNOWN. is ready: false

官网运维说明：

本次FE启动时获取到的本机IP和上次启动不一致，通常是因为没有正确设置

priority_network 而导致 FE 启动时匹配到了错误的 IP 地址。需修改priority_network 后重启 FE。

集群内多数 Follower FE 节点未启动。比如有 3 个 Follower，只启动了一个。此时需要将另外至少一个 FE 也启动，FE 可选举组方能选举出 Master 已提供服务。

由于一直都有配置IP，所以肯定是第二个原因，所以尝试启动另一个FE，注意，此时上面那个是没完全启动的（9030 mysql查询端口）根本没起来

此时另一个FE报了另外一个错

2022-11-25 13:49:29,753 ERROR (main|1) [BDBEnvironment.setup():198] error to open replicated environment. will exit. com.sleepycat.je.EnvironmentFailureException: (JE 18.3.12) xx.xx.xx.39_9010_1657261636912(-1):/home/data/doris-meta/bdb recoveryTracker should overlap or follow on disk last VLSN of 40,001,327 recoveryFirst= 40,001,329 UNEXPECTED_STATE_FATAL: Unexpected internal state, unable to continue. Environment is invalid and must be closed.

这是 bdbje 的一个 bug，尚未解决。遇到这种情况，只能通过官网《元数据运维文档》中的故障恢复进行操作来恢复元数据了。

思路：找到元数据最新那个FE节点，以metadata_failure_recovery=true启动，它将会成为master，然后去掉配置重启，把其它follow删掉重新添加

show frontends;

ALTER SYSTEM DROP FOLLOWER "xx.xx.xx.39:9010"; //删除非master FE

sh start_fe.sh --helper xx.xx.xx.40:9010 --daemon //重新启动，首次需要指定master地址

ALTER SYSTEM ADD FOLLOWER "xx.xx.xx.39:9010"; // 重新添加FE

有两个节点的fe，都挂了，重启发现以前master节点时报：

2022-11-25 11:27:25,797 INFO (UNKNOWN xx.xx.xx.40_9010_1657260956519(-1)|1) [Catalog.waitForReady():876] wait catalog to be ready. FE type: UNKNOWN. is ready: false

官网运维说明：

本次FE启动时获取到的本机IP和上次启动不一致，通常是因为没有正确设置

priority_network 而导致 FE 启动时匹配到了错误的 IP 地址。需修改priority_network 后重启 FE。

集群内多数 Follower FE 节点未启动。比如有 3 个 Follower，只启动了一个。此时需要将另外至少一个 FE 也启动，FE 可选举组方能选举出 Master 已提供服务。

由于一直都有配置IP，所以肯定是第二个原因，所以尝试启动另一个FE，注意，此时上面那个是没完全启动的（9030 mysql查询端口）根本没起来

此时另一个FE报了另外一个错

2022-11-25 13:49:29,753 ERROR (main|1) [BDBEnvironment.setup():198] error to open replicated environment. will exit. com.sleepycat.je.EnvironmentFailureException: (JE 18.3.12) xx.xx.xx.39_9010_1657261636912(-1):/home/data/doris-meta/bdb recoveryTracker should overlap or follow on disk last VLSN of 40,001,327 recoveryFirst= 40,001,329 UNEXPECTED_STATE_FATAL: Unexpected internal state, unable to continue. Environment is invalid and must be closed.

这是 bdbje 的一个 bug，尚未解决。遇到这种情况，只能通过官网《元数据运维文档》中的故障恢复进行操作来恢复元数据了。

思路：找到元数据最新那个FE节点，以metadata_failure_recovery=true启动，它将会成为master，然后去掉配置重启，把其它follow删掉重新添加

show frontends;

ALTER SYSTEM DROP FOLLOWER "xx.xx.xx.39:9010"; //删除非master FE

sh start_fe.sh --helper xx.xx.xx.40:9010 --daemon //重新启动，首次需要指定master地址

ALTER SYSTEM ADD FOLLOWER "xx.xx.xx.39:9010"; // 重新添加FE

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

Doris fe启动失败

Doris fe启动失败

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

Doris fe启动失败

Doris fe启动失败