在使用DataArts Studio前,您需要根据业务场景选择符合需求的云服务或数据仓库作为数据湖,用于存储原始数据和数据治理过程中的数据,并进行数据开发、服务和运营。DataArts Studio集成了丰富的数据引擎,支持对接如DLI、DWS、MRS Hive等云上数据湖与数据库云服务,也支持对接企业传统数据库,例如MySQL、PostgreSQL等。
DataArts Studio支持的数据源
DataArts Studio支持的数据源可分为“数据集成组件支持的数据源”和“DataArts Studio其他组件支持的数据源”。
- 数据集成组件支持的数据源。数据集成组件需要集成源数据到数据湖中,因此支持的数据源范围更广。
数据集成支持的数据源请参见 支持的数据源。注意,如需在数据集成中使用这些数据源,请先在数据集成中创建对应的数据连接,这些数据连接仅限于在数据集成模块中使用。
- DataArts Studio其他组件支持的数据源,即为DataArts Studio所支持的数据湖底座。
其他组件支持的数据源如下表所示,数据源的介绍请参见下方数据源简介。注意,如需在其他组件中使用这些数据源,请先前往DataArts Studio管理中心控制台创建数据连接,这些数据连接不能在数据集成模块中使用。
详见下表 DataArts Studio其他组件支持的数据源
数据源类型 | 管理中心 | 数据架构 | 数据开发 | 数据目录[1] | 数据质量[2] | 数据服务 |
---|---|---|---|---|---|---|
数据仓库服务(DWS) | √ | √ | √ | √ | √ | √ |
数据湖探索(DLI) | √ | √ | √ | √ | √ | √ |
MapReduce服务(MRS HBase) | √ | × | × | √ | × | × |
MapReduce服务(MRS Hive) | √ | √ | √ | √ | √ | × |
MapReduce服务(MRS Kafka) | √ | × | √ | × | × | × |
MapReduce服务(MRS Ranger) | √ | × | × | × | × | × |
MySQL | √ | × | × | × | √ | √ |
MapReduce服务(MRS Spark) | √ | × | √ | × | √ | × |
云数据库RDS(MySQL) | √ | × | √ | √ | √ | √ |
云数据库RDS(PostgreSQL) | √ | √ | √ | √ | √ | × |
主机连接 | √ | × | √ | × | × | × |
MapReduce服务(MRS Presto) | √ | × | √ | × | × | × |
注释 :
[1] 数据目录: 数据目录组件除了上表中列出的数据源外,还支持采集以下数据源的元数据:
- 关系型数据库如MySQL/PostgreSQL/达梦数据库DM等(可使用RDS类型连接,采集其元数据)
- 云搜索服务CSS
- 图引擎服务GES
- 对象存储服务OBS
[2] 数据质量 :数据质量组件中的质量作业和对账作业功能不支持对接MRS集群存算分离的场景。
数据源简介
数据源简介
数据源类型 | 简介 |
---|---|
数据仓库服务(DWS) | DWS是基于Shared-nothing分布式架构,具备MPP大规模并行处理引擎,兼容标准ANSI SQL 99和SQL 2003,同时兼容PostgreSQL/Oracle数据库生态,为各行业PB级海量大数据分析提供有竞争力的解决方案。 |
数据湖探索(DLI) | DLI是完全兼容Apache Spark和Apache Flink生态,实现批流一体的Serverless大数据计算分析服务。DLI支持多模引擎,企业仅需使用SQL或程序就可轻松完成异构数据源的批处理、流处理、内存计算、机器学习等,挖掘和探索数据价值。 |
MapReduce服务(MRS HBase) | HBase是一个开源的、面向列(Column-Oriented)、适合存储海量非结构化数据或半结构化数据的、具备高可靠性、高性能、可灵活扩展伸缩的、支持实时数据读写的分布式存储系统。 使用MRS HBase可实现海量数据存储,并实现毫秒级数据查询。选择MRS HBase可以实现物流数据毫秒级实时入库更新,并支持百万级时序数据查询分析。 |
MapReduce服务(MRS Hive) | Hive是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言,称为HiveQL,它允许熟悉SQL的用户查询数据。 使用MRS Hive可实现TB/PB级的数据分析,快速将线下Hadoop大数据平台(CDH、HDP等)迁移上云,业务迁移 “0”中断,业务代码 “0”改动。 |
MapReduce服务(MRS Kafka) | MapReduce服务可提供专属MRS Kafka集群。Kafka是一个分布式的、分区的、多副本的消息发布-订阅系统,它提供了类似于JMS的特性,但在设计上完全不同,它具有消息持久化、高吞吐、分布式、多客户端支持、实时等特性,适用于离线和在线的消息消费,如常规的消息收集、网站活性跟踪、聚合统计系统运营数据(监控数据)、日志收集等大量数据的互联网服务的数据收集场景。 |
MapReduce服务(MRS Ranger) | Ranger提供一个集中式安全管理框架,提供统一授权和统一审计能力。它可以对整个Hadoop生态中如HDFS、Hive、HBase、Kafka、Storm等进行细粒度的数据访问控制。用户可以利用Ranger提供的前端WebUI控制台通过配置相关策略来控制用户对这些组件的访问权限。 |
MySQL | MySQL是目前最受欢迎的开源数据库之一,其性能卓越,架构成熟稳定,支持流行应用程序,适用于多领域多行业,支持各种WEB应用,成本低,中小企业首选。 |
MapReduce服务(MRS Spark) | Spark是一个开源的,并行数据处理框架,能够帮助用户简单的开发快速、统一的大数据应用,对数据进行协处理、流式处理、交互式分析等等。 Spark提供了一个快速的计算、写入以及交互式查询的框架。相比于Hadoop,Spark拥有明显的性能优势。Spark提供类似SQL的Spark SQL语言操作结构化数据。 |
云数据库RDS | RDS是一种基于云计算平台的即开即用、稳定可靠、弹性伸缩、便捷管理的在线关系型数据库服务。 注意,DataArts Studio平台目前仅支持RDS中的MySQL和PostgreSQL数据库。 |
主机连接 | 通过主机连接,用户可以在DataArts Studio数据开发中连接到指定的主机,通过脚本开发和作业开发在主机上执行Shell或Python脚本。主机连接保存连接某个主机的连接信息,当主机的连接信息有变化时,只需在主机连接管理中编辑修改,而不需要到具体的脚本或作业中逐一修改。 |
MapReduce服务(MRS Presto) | Presto是一个开源的用户交互式分析查询的SQL查询引擎,用于针对各种大小的数据源进行交互式分析查询。其主要应用于海量结构化数据/半结构化数据分析、海量多维数据聚合/报表、ETL、Ad-Hoc查询等场景。 Presto允许查询的数据源包括Hadoop分布式文件系统(HDFS),Hive,HBase,Cassandra,关系数据库甚至专有数据存储。一个Presto查询可以组合不同数据源,执行跨数据源的数据分析。 |