如何使用StreamSets从MySQL增量更新数据到Hive
标签(空格分隔): 大数据平台构建
一: 编写目的 二: 平台所用版本介绍 三: 配置步骤 四: 测试应用
一: 编写目的
通过StreamSets实现数据采集,在实际生产中需要实时捕获MySQL、Oracle等其他数据源的变化数据(简称CDC)将变化数据实时的写入大数据平台的Hive、HDFS、HBase、Solr、Elasticserach等。该文将介绍使用StreamSets通过JDBC的方式实时抽取增量数据到Hive。
二: 平台所使用版本
cdh 版本:
CDH5.14.4
StreamSets 版本:
StreamSets 3.5.2
在 大数据平台 CDH5.14.4 上面如何集成安装不在介绍 参考flyfish的博客
<<在CDH5.14.4 中安装StreamSets与案例运行>>
三:配置步骤
3.1 创建 Pipelines
在CDH的 主节点上面 创建 目录
mkdir -p /tmp/mysql_to_hive