在使用DataArts Studio前,您应首先进行数据与业务调研,选择合适的数据治理模型。
然后参考本章节,预先做好以下准备工作:
DataArts Studio准备工作
准备数据源
准备数据湖
DataArts Studio准备工作
如果您是第一次使用DataArts Studio,请参考用户指南中的“准备工作”章节,完成创建DataArts Studio实例、创建工作空间等一系列操作。然后找到对应的工作空间,即可开始数据开发与运营。
准备数据源
在实际业务中,源端数据源大多为云下的MySQL、PostgreSQL、HBase、Hive等类型,您需要作如下准备:
- 确保数据源所在的主机可以访问公网。
- 获取数据源的公网连接地址、数据库端口、数据库管理员用户及密码等信息。
- 确保防火墙规则出方向已开放数据库端口,允许数据传输到云上。
准备好数据源之后,后续您可以通过数据集成将数据源迁移到数据湖底座中,然后再通过DataArts Studio进行数据开发、治理和运营等活动。
准备数据湖
在使用DataArts Studio前,您需要根据业务场景选择符合需求的云服务作为DataArts Studio的数据湖底座,用于存储原始数据和数据开发过程中的数据,并进行后续的数据开发、治理和运营等活动。DataArts Studio平台当前支持的数据湖产品请参见DataArts Studio支持的数据源。
准备好数据湖之后,您可以通过创建数据连接将DataArts Studio与数据湖底座连接起来,然后进行下方1和2的操作。1和2的操作样例可参考快速入门中的“2:准备工作”章节。
1.创建数据库
在使用DataArts Studio数据集成将数据迁移上云之前,我们需要在目的端数据湖中创建目标数据库。根据数据湖治理落地流程,建议您在数据湖中为SDI层、DWI层、DWR层和DM层分别创建一个数据库,从而对数据进行分层分库。数据分层是后面在数据架构中将涉及到的概念,此处可先简单了解,在数据架构时将深入了解与操作。
您可以参考以下任一一种方式在数据湖中创建数据库。
您可以在DataArts Studio数据开发模块中,可视化方式创建数据库,具体操作请参见“数据开发 > 数据管理 > 新建数据库”章节。
您可以通过在DataArts Studio数据开发模块或数据湖产品的SQL编辑器上,开发并执行用于创建数据库的SQL脚本,从而创建数据库。在DataArts Studio数据开发模块开发脚本的具体操作请参见“数据开发 > 脚本开发 > 开发脚本> 开发SQL脚本”章节;数据湖产品的SQL编辑器上的具体操作请参见对应数据湖产品的帮助文档。
2.创建数据表
在使用DataArts Studio数据集成将数据迁移上云之前,我们需要在目的端数据湖的SDI层数据库中创建一个目标表,用于存储原始数据。批量数据迁移场景下,关系型数据库之间的迁移和关系型数据库到Hive的迁移支持自动创建目标表,这种情况下可以不预先在目的端数据库中创建目标表。
您可以参考以下任一一种方式在数据湖中创建原始数据表。如果表字段个数较多,建议使用编写SQL脚本的方式创建表。
您可以在DataArts Studio数据开发模块中,可视化方式创建数据表,具体操作请参见“数据开发 > 数据管理 > 新建数据表”章节。
您可以通过在DataArts Studio数据开发模块或数据湖产品的SQL编辑器上,开发并执行用于创建数据表的SQL脚本,从而创建数据表。在DataArts Studio数据开发模块开发脚本的具体操作请参见“数据开发 > 脚本开发 > 开发脚本> 开发SQL脚本”章节;数据湖产品的SQL编辑器上的具体操作请参见对应数据湖产品的帮助文档。