矛始-社区专栏-作者主页-天翼云开发者社区

全部文章Ta的评论

hudi系列-文件系统视图
hudi表的数据一直在演变过程中，存储在文件系统中的数据文件也在不断增加和版本迭代，hudi提供了表级别的文件系统视图(filesystem view)来简单、直观地了解表中的数据分布情况、数据文件的状态和变化，以及数据的版本控制信息
大数据
矛始
2024-05-07
7
0
hudi系列-小文件优化
hudi使用mvcc来实现数据的读写一致性和并发控制，基于timeline实现对事务和表服务的管理，会产生大量比较小的数据文件和元数据文件。大量小文件会对存储和查询性能产生不利影响，包括增加文件系统的开销、文件管理的复杂性以及查询性能的下降。对于namenode而言，当整个集群中文件数到了几千万，就已经会变得很不稳定了
大数据
矛始
2024-05-06
56
0
hudi系列-append写过程
Append模式每次都生成新的parquet文件，不涉及数据修改、去重
大数据
矛始
2024-05-06
25
0
Doris fe启动失败
有两个节点的fe，都挂了，重启发现以前master节点时报错
大数据
矛始
2023-03-28
171
0
hudi系列-不支持flink计算列
在构建parquet reader的时候需要定位每个查询schema中的列对应数据文件中的位置(用selectIndexs表示
大数据
矛始
2023-02-18
44
2
hudi系列-mor表写过程
hudi有很多种写入流程，使用不同的表类型、写类型(WriteOperationType)、索引类型(IndexType)，流程上都会有所差异。使用flink流式写MOR表场景比较多，顺道梳理一下这个流程的细节
大数据
矛始
2023-05-17
18
0
hudi系列-基于cdc应用与优化
做数据同步受存储引擎和采集工具的限制，经常都是全量定时同步，亦或是以自增ID或时间作为增量的依据进行增量定时同步，无论是哪种，都存在数据延时较大、会重复同步不变的数据、浪费资源等问题。后来刚接触canal时还大感惊奇，基于mysql的binlog可以这么方便实时同步最新数据，然而历史数据的初始化仍然得使用第三方ETL工具来全量同步。直到flink cdc项目诞生，完全解决了前面的痛点。实时技术的发展已经不能满足于数据只能实时采集，还需要实时地进行数据建模和数据分析，即全链路实时。
大数据
矛始
2023-05-17
27
0
hudi系列-增量查询ckp超时
增量查询ckp超时
大数据
矛始
2023-05-17
16
0
【flink】cdc 1.x 分析
直至flink cdc 2.3，只有mysql全面支持了无锁的增量快照和动态加表等高级特性，有部分其它connector也集成了增量快照框架，很遗憾准备使用的postgres还停留在1.x，都知道1.x有很多使用限制
大数据
矛始
2023-05-17
63
0
superset基于docker修改数据库
superset原生安装比较麻烦，所以选择docker方式进行安装
大数据
矛始
2023-03-06
108
0
【flink】记一次postgres cdc丢数据
业务库使用的是postgresql，使用flink cdc同步几个表到hudi时，发现其中有一个表在同步过程中一直报空指针异常
大数据
矛始
2023-03-28
91
0
hudi系列-数据写入方式及使用场景
hudi支持多种数据写入方式：insert、bulk_insert、upsert、boostrap，我们可以根据数据本身属性(append-only或upsert)来选择insert和upsert方式，同时也支持对历史数据的高效同步并嫁接到实时流程。
大数据
矛始
2023-03-14
174
0
【flink】各种join类型对比
Interval join要求至少有一个等值谓词连接和一个时间约束条件，这个时间属性定义了流的时间范围
大数据
矛始
2023-02-22
196
1
hudi系列-文件布局
hudi的文件布局是能实现增量查询、数据更新等特性的基础，每个hudi表有一个固定的目录，存放元数据(.hoodie)以及数据文件，其中数据文件可以以分区方式进行划分，每个分区有多个数据文件(基础文件和日志文件)，这些数据文件在逻辑上被组织为文件组、文件分片
大数据
矛始
2023-02-15
156
0
【flink】算子ID生成
一般来说在使用Streaming Api编程时都建议给算子自定义uid，特别有些转换涉及到状态，因为算子ID是算子和状态之间的纽带，一直都认为指定的uid就是最终的算子ID。但是在基于flink sql层次编程时，很多时候并不清楚整个job最由多少个算子组成，也不知道每个算子的ID是怎么生成的，以及如果进行个修改会不会不能从状态中恢复。
大数据
矛始
2023-03-28
312
0
hudi系列-索引机制
hudi的索引机制是为了加速upsert/delete操作，它维护着（分区 + key）-> fileID之间的映射关系，所以可以减少对非必要base文件的合并
大数据
矛始
2022-12-16
116
0
hive metastore去掉明文密码
在生产环境中肯定不能随意暴露明文密码，经过查找，还没发现可以支持配置加密密码，在使用时解密的处理方案。但是可以通过 Hadoop Credential Providers 功能把密码保存到密钥库中，然后移除配置文件中的密码项
大数据
矛始
2022-12-29
136
0
hudi系列-流式增量查询
hudi的两大特性：流式查询和支持upsert/delete，hudi的数据变更是基于timeline的，所以时间点(Instant)就成为了实现增量查询的依据。在与flink集成中，当开启了流式读，其实就是一个持续的增量查询的过程，可以通过配置参数read.start-commit和read.end-commit来指定一个无状态的flink job的初始查询范围。
大数据
矛始
2022-12-10
105
0
hudi系列-设置合理清理策略
hudi提供三种查询方式：读优化、快照读、增量读，无论是哪种方式，由于hudi的文件组织是有版本的概念(FileGroup,FileSlice)，旧版本的文件持续在执行清理，如果被清理的文件正在读取或者即将被读取到，那岂不是很影响使用，所以我们需要设置合理的清理策略保障上层数据处理任务的平稳运行，提高系统的容错性。
大数据
矛始
2022-12-11
379
0
hudi系列-changelog的读写
hudi自身支持ChangelogModes#FULL & ChangelogModes#UPSERT 两种模式
大数据
矛始
2022-12-11
316
0
flink 运行方式和部署模式
flink可以以local或cluster方式运行job，一般来说在本地开发调试时就以local在idea中运行，完成后就提交到cluster.根据资源管理器不同又可以分为standalone,yarn,k8s等，从命令参数也可以看出，flink对yarn和k8s的支持是最好的。
大数据
矛始
2022-12-11
169
0
hudi系列-文件归档（archive）
hudi会不断生成commit、deltacommit、clean等类型的Instant从而形成活跃时间轴（ActiveTimeline），随着时间增长，时间轴变长，.hoodie元数据目录下的文件不断累积，为了限制元数据文件数量，需要对一些比较久远的元数据文件进行归档，保存到.hoodie/archived目录下，可以称之为归档时间轴（ArchivedTimeline）。
大数据
矛始
2022-12-11
230
0
hudi系列-文件压缩（compaction）
压缩（compaction）仅作用于MergeOnRead类型表，MOR表每次增量提交（deltacommit）都会生成若干个日志文件（行存储的avro文件），为了避免读放大以及减少文件数量，需要配置合适的压缩策略将增量的log file合并到base file（parquet）中。
大数据
矛始
2022-12-11
320
0
hudi系列-借助hudi优化架构
引入hudi的后整个构架最直观就是变得简单了，可以实现分钟级别的实时数仓，数据统一存储减少一致性的风险
大数据
矛始
2022-12-11
25
0
hudi系列-旧文件清理（clean）
hudi采用的是mvcc设计，提供了清理工具cleaner来把旧版本的文件分片删除，默认开启了清理功能，可以防止文件系统的存储空间和文件数量的无限增长。
大数据
矛始
2022-12-10
115
0
Spark数据格式UnsafeRow
UnsafeRow是InternalRow的子类，它表示一个可变的基于原始内存(raw-memory)的二进制行格式，简单来说UnsafeRow代表一行记录，用于替代java对象（属于Tungsten计划的一部分，可以减少内存使用以及GC开销）
大数据
矛始
2022-12-10
21
0
Spark序列化 & Encoders
SparkSql并不使用kryo或java序列化，Dataset使用的是Encoder将jvm对象转换为二进制(《spark数据格式UnsafeRow》)，类似于序列化过程，但是Encoder是动态生成代码，并使用标准的InternalRow格式，使得spark可以直接基于字节上做很多操作（不需要反序列化过程），比如filtering,sorting和hashing；Encoder比kryo和java序列化更轻量级，因为它不用额外保存类的描述信息。
大数据
矛始
2022-12-10
66
0
Spark统一内存划分
spark计算框架使用内存构成分析
大数据
矛始
2022-12-10
13
0

共 28 条前往

页

没有更多了

个人简介

天翼云

好记性 + 烂笔头

大数据，实时数仓，spark，flink，hudi

广东工业大学计算机科学与技术

个人成就

共发表过 28 篇文章

文章获得 3 次赞同

文章被浏览 3475 次

获得 0 人关注

个人荣誉查看规则

有目共赏

有识之士

笔底生花

初出茅庐

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云