运维管理-HUDI监控配置
基本参数配置:
参数名 |
默认值 |
参数描述 |
支持版本 |
hoodie.metrics.on |
FALSE |
是否打开/关闭监控指标报告 |
>=0.5.0 |
hoodie.metrics.reporter.type |
GRAPHITE |
监控指标报告类型,支持类型:GRAPHITE, INMEMORY, JMX, DATADOG, CONSOLE, PROMETHEUS_PUSHGATEWAY, PROMETHEUS, CLOUDWATCH |
>=0.5.0 |
hoodie.metricscompaction.log.blocks.on |
FALSE |
打开/关闭带有压缩提交的日志块的指标报告。 |
>=0.14.0 |
使用Prometheus报告Hudi监控指标,指标包括提交、清理、回滚等方面。
参数名 |
默认值 |
参数描述 |
支持版本 |
hoodie.metrics.prometheus.port |
9090 |
prometheus服务端口号 |
>=0.6.0 |
hoodie.metrics.pushgateway.delete.on.shutdown |
TRUE |
作业关闭时是否删除pushgateway信息 |
>=0.6.0 |
hoodie.metrics.pushgateway.host |
localhost |
prometheus推送网关主机名 |
>=0.6.0 |
hoodie.metrics.pushgateway.job.name |
|
推送至网关的作业名称 |
>=0.6.0 |
hoodie.metrics.pushgateway.port |
9091 |
prometheus推送网关端口号 |
>=0.6.0 |
hoodie.metrics.pushgateway.random.job.name.suffix |
TRUE |
pushgateway名称是否需要加随机后缀 |
>=0.6.0 |
hoodie.metrics.pushgateway.report.labels |
|
发送到pushgateway的监控指标的标签。标签可以用逗号分隔 |
>=0.14.0 |
hoodie.metrics.pushgateway.report.period.seconds |
30 |
报告间隔(s) |
>=0.6.0 |
运维管理-HUDI清理服务
HUDI采用MVCC设计会保留文件多个版本,为防止保留文件过多,提供了CLEAN服务对旧版本文件进行清理
主要参数介绍:
参数名 |
默认值 |
参数描述 |
hoodie.clean.automatic |
TRUE |
每次提交后都会立即调用CLEAN服务,以删除较旧的文件切片。建议启用此功能,以确保元数据和数据存储的增长受到限制。 |
hoodie.clean.max.commits |
1 |
最后一次清理操作之后、尝试安排新的清理之前的提交次数。 |
hoodie.clean.trigger.strategy |
NUM_COMMITS |
控制何时安排清理。 NUM_COMMITS(默认):每 N 次提交触发一次清洁服务,由 hoodie.clean.max.commits 确定。 |
hoodie.cleaner.fileversions.retained |
3 |
清理期间每个文件组中保留的最小文件切片数。 |
hoodie.cleaner.hours.retained |
24 |
需要保留提交的小时数。与为清理服务保留的提交数量相比,此配置提供了更灵活的选项。设置此属性可确保清理所有文件(但文件组中的最新文件除外),这些文件对应于提交时间早于配置的保留小时数的提交。 |
hoodie.cleaner.incremental.mode |
TRUE |
启用后,自上次清洁服务运行以来,每次清洁服务运行的计划都是根据时间线中的事件增量计算的。这比获取每个计划的完整表的列表(即使使用元数据表)要高效得多。 |
hoodie.cleaner.parallelism |
200 |
控制清理服务并发数 |
hoodie.cleaner.policy |
KEEP_LATEST_COMMITS |
org.apache.hudi.common.model.HoodieCleaningPolicy:要使用的清洁策略。最多可以设置其中一项,否则使用 KEEP_LATEST_COMMITS 清理策略, KEEP_LATEST_FILE_VERSIONS、KEEP_LATEST_COMMITS、KEEP_LATEST_BY_HOURS |
hoodie.cleaner.policy.failed.writes |
EAGER |
控制如何清理失败写入的策略。EAGER(默认):每次写入操作后清除失败的写入。 LAZY:清理服务运行时,心跳超时后清理写入失败。启用多写入器时需要此策略。 NEVER:从不清除失败的写入。 |
hoodie.clean.async |
FALSE |
异步启用CLEAN服务 |
hoodie.cleaner.commits.retained |
10 |
保留的提交数量,这将保留 num_of_commits * time_ Between_commits (预定)。这也直接转化为表支持增量查询的数据保留量。 |
运维管理-HUDI归档服务