全部文章Ta的评论
- 数据湖的业务场景主要包括数据库、日志和文件的分析。管理数据湖的关键权衡之一是在写吞吐量和查询性能之间进行选择。为了获得更好的写入吞吐量,通常最好将传入数据写入较小的数据文件。这将大大提高并行性并提高写入速度。但是小文件过多会导致对Hadoop集群namenode压力增加,同时会导致数据的聚集性不会太好,经常查询的数据不会放在一起,会一定层度降低查询性能。Hudi Clustering功能基于以上问题,针对性的提出解决方案。x****m2023-07-2480
共 2 条
- 1
页
个人简介
暂未填写公司和职务
暂未填写个人简介
暂未填写技能专长
暂未填写毕业院校和专业
个人成就
共发表过 2 篇文章
文章获得 0 次赞同
文章被浏览 39 次
获得 0 人关注
个人荣誉查看规则
暂未获得荣誉