searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

HUDI运维管理

2023-11-01 06:33:24
12
0

运维管理-HUDI监控配置

基本参数配置:

参数名

默认值

参数描述

支持版本

hoodie.metrics.on

FALSE

是否打开/关闭监控指标报告

>=0.5.0

hoodie.metrics.reporter.type

GRAPHITE

监控指标报告类型,支持类型:GRAPHITE, INMEMORY, JMX, DATADOG, CONSOLE, PROMETHEUS_PUSHGATEWAY, PROMETHEUS, CLOUDWATCH

>=0.5.0

hoodie.metricscompaction.log.blocks.on

FALSE

打开/关闭带有压缩提交的日志块的指标报告。

>=0.14.0

使用Prometheus报告Hudi监控指标,指标包括提交、清理、回滚等方面。

参数名

默认值

参数描述

支持版本

hoodie.metrics.prometheus.port

9090

prometheus服务端口号

>=0.6.0

hoodie.metrics.pushgateway.delete.on.shutdown

TRUE

作业关闭时是否删除pushgateway信息

>=0.6.0

hoodie.metrics.pushgateway.host

localhost

prometheus推送网关主机名

>=0.6.0

hoodie.metrics.pushgateway.job.name

 

推送至网关的作业名称

>=0.6.0

hoodie.metrics.pushgateway.port

9091

prometheus推送网关端口号

>=0.6.0

hoodie.metrics.pushgateway.random.job.name.suffix

TRUE

pushgateway名称是否需要加随机后缀

>=0.6.0

hoodie.metrics.pushgateway.report.labels

 

发送到pushgateway的监控指标的标签。标签可以用逗号分隔

>=0.14.0

hoodie.metrics.pushgateway.report.period.seconds

30

报告间隔(s)

>=0.6.0

运维管理-HUDI清理服务

HUDI采用MVCC设计会保留文件多个版本,为防止保留文件过多,提供了CLEAN服务对旧版本文件进行清理

主要参数介绍:

参数名

默认值

参数描述

hoodie.clean.automatic

TRUE

每次提交后都会立即调用CLEAN服务,以删除较旧的文件切片。建议启用此功能,以确保元数据和数据存储的增长受到限制。

hoodie.clean.max.commits

1

最后一次清理操作之后、尝试安排新的清理之前的提交次数。

hoodie.clean.trigger.strategy

NUM_COMMITS

控制何时安排清理。 NUM_COMMITS(默认):每 N 次提交触发一次清洁服务,由 hoodie.clean.max.commits 确定。

hoodie.cleaner.fileversions.retained

3

清理期间每个文件组中保留的最小文件切片数。

hoodie.cleaner.hours.retained

24

需要保留提交的小时数。与为清理服务保留的提交数量相比,此配置提供了更灵活的选项。设置此属性可确保清理所有文件(但文件组中的最新文件除外),这些文件对应于提交时间早于配置的保留小时数的提交。

hoodie.cleaner.incremental.mode

TRUE

启用后,自上次清洁服务运行以来,每次清洁服务运行的计划都是根据时间线中的事件增量计算的。这比获取每个计划的完整表的列表(即使使用元数据表)要高效得多。

hoodie.cleaner.parallelism

200

控制清理服务并发数

hoodie.cleaner.policy

KEEP_LATEST_COMMITS

org.apache.hudi.common.model.HoodieCleaningPolicy:要使用的清洁策略。最多可以设置其中一项,否则使用 KEEP_LATEST_COMMITS 清理策略, KEEP_LATEST_FILE_VERSIONS、KEEP_LATEST_COMMITS、KEEP_LATEST_BY_HOURS

hoodie.cleaner.policy.failed.writes

EAGER

控制如何清理失败写入的策略。EAGER(默认):每次写入操作后清除失败的写入。 LAZY:清理服务运行时,心跳超时后清理写入失败。启用多写入器时需要此策略。 NEVER:从不清除失败的写入。

hoodie.clean.async

FALSE

异步启用CLEAN服务

hoodie.cleaner.commits.retained

10

保留的提交数量,这将保留 num_of_commits * time_ Between_commits (预定)。这也直接转化为表支持增量查询的数据保留量。

 

运维管理-HUDI归档服务

 

0条评论
作者已关闭评论
x****n
3文章数
0粉丝数
x****n
3 文章 | 0 粉丝
x****n
3文章数
0粉丝数
x****n
3 文章 | 0 粉丝
原创

HUDI运维管理

2023-11-01 06:33:24
12
0

运维管理-HUDI监控配置

基本参数配置:

参数名

默认值

参数描述

支持版本

hoodie.metrics.on

FALSE

是否打开/关闭监控指标报告

>=0.5.0

hoodie.metrics.reporter.type

GRAPHITE

监控指标报告类型,支持类型:GRAPHITE, INMEMORY, JMX, DATADOG, CONSOLE, PROMETHEUS_PUSHGATEWAY, PROMETHEUS, CLOUDWATCH

>=0.5.0

hoodie.metricscompaction.log.blocks.on

FALSE

打开/关闭带有压缩提交的日志块的指标报告。

>=0.14.0

使用Prometheus报告Hudi监控指标,指标包括提交、清理、回滚等方面。

参数名

默认值

参数描述

支持版本

hoodie.metrics.prometheus.port

9090

prometheus服务端口号

>=0.6.0

hoodie.metrics.pushgateway.delete.on.shutdown

TRUE

作业关闭时是否删除pushgateway信息

>=0.6.0

hoodie.metrics.pushgateway.host

localhost

prometheus推送网关主机名

>=0.6.0

hoodie.metrics.pushgateway.job.name

 

推送至网关的作业名称

>=0.6.0

hoodie.metrics.pushgateway.port

9091

prometheus推送网关端口号

>=0.6.0

hoodie.metrics.pushgateway.random.job.name.suffix

TRUE

pushgateway名称是否需要加随机后缀

>=0.6.0

hoodie.metrics.pushgateway.report.labels

 

发送到pushgateway的监控指标的标签。标签可以用逗号分隔

>=0.14.0

hoodie.metrics.pushgateway.report.period.seconds

30

报告间隔(s)

>=0.6.0

运维管理-HUDI清理服务

HUDI采用MVCC设计会保留文件多个版本,为防止保留文件过多,提供了CLEAN服务对旧版本文件进行清理

主要参数介绍:

参数名

默认值

参数描述

hoodie.clean.automatic

TRUE

每次提交后都会立即调用CLEAN服务,以删除较旧的文件切片。建议启用此功能,以确保元数据和数据存储的增长受到限制。

hoodie.clean.max.commits

1

最后一次清理操作之后、尝试安排新的清理之前的提交次数。

hoodie.clean.trigger.strategy

NUM_COMMITS

控制何时安排清理。 NUM_COMMITS(默认):每 N 次提交触发一次清洁服务,由 hoodie.clean.max.commits 确定。

hoodie.cleaner.fileversions.retained

3

清理期间每个文件组中保留的最小文件切片数。

hoodie.cleaner.hours.retained

24

需要保留提交的小时数。与为清理服务保留的提交数量相比,此配置提供了更灵活的选项。设置此属性可确保清理所有文件(但文件组中的最新文件除外),这些文件对应于提交时间早于配置的保留小时数的提交。

hoodie.cleaner.incremental.mode

TRUE

启用后,自上次清洁服务运行以来,每次清洁服务运行的计划都是根据时间线中的事件增量计算的。这比获取每个计划的完整表的列表(即使使用元数据表)要高效得多。

hoodie.cleaner.parallelism

200

控制清理服务并发数

hoodie.cleaner.policy

KEEP_LATEST_COMMITS

org.apache.hudi.common.model.HoodieCleaningPolicy:要使用的清洁策略。最多可以设置其中一项,否则使用 KEEP_LATEST_COMMITS 清理策略, KEEP_LATEST_FILE_VERSIONS、KEEP_LATEST_COMMITS、KEEP_LATEST_BY_HOURS

hoodie.cleaner.policy.failed.writes

EAGER

控制如何清理失败写入的策略。EAGER(默认):每次写入操作后清除失败的写入。 LAZY:清理服务运行时,心跳超时后清理写入失败。启用多写入器时需要此策略。 NEVER:从不清除失败的写入。

hoodie.clean.async

FALSE

异步启用CLEAN服务

hoodie.cleaner.commits.retained

10

保留的提交数量,这将保留 num_of_commits * time_ Between_commits (预定)。这也直接转化为表支持增量查询的数据保留量。

 

运维管理-HUDI归档服务

 

文章来自个人专栏
大数据学习之路
3 文章 | 1 订阅
0条评论
作者已关闭评论
作者已关闭评论
0
0