lakefs 为了更好的支持hive 以及glue单独开发了metadata 同步的命令(基于metadata 的thrift rpc 协议)
主要解决的问题
比如我们在main分支创建了table,然后我们开发了dev 分支,如果基于hive 的metadata 进行数据查询就有问题了
此时就可以使用lakefs 提供的copy 命令了
参考配置
lakectl.yaml
metastore:
type: hive
hive:
uri: hive-metastore:9083
目前提供的命令
copy,diff,create-symlink (glue支持)
推荐模型
lakefs 对于每个分支创建一个schema,这样的好处是对于同一个表支持不同的schema,比如:
examle_branch 分支,同时创建一个example_branch 的schema,核心还是为了规避lakefs 处理数据合并冲突的问题