在使用DataArts Studio前，您需要根据业务场景选择符合需求的云服务或数据仓库作为数据湖，用于存储原始数据和数据治理过程中的数据，并进行数据开发、服务和运营。DataArts Studio集成了丰富的数据引擎，支持对接如DLI、DWS、MRS Hive等云上数据湖与数据库云服务，也支持对接企业传统数据库，例如MySQL、PostgreSQL等。

DataArts Studio支持的数据源

DataArts Studio支持的数据源可分为“数据集成组件支持的数据源”和“DataArts Studio其他组件支持的数据源”。

数据集成组件支持的数据源。数据集成组件需要集成源数据到数据湖中，因此支持的数据源范围更广。

数据集成支持的数据源请参见支持的数据源。注意，如需在数据集成中使用这些数据源，请先在数据集成中创建对应的数据连接，这些数据连接仅限于在数据集成模块中使用。

DataArts Studio其他组件支持的数据源，即为DataArts Studio所支持的数据湖底座。

其他组件支持的数据源如下表所示，数据源的介绍请参见下方数据源简介。注意，如需在其他组件中使用这些数据源，请先前往DataArts Studio管理中心控制台创建数据连接，这些数据连接不能在数据集成模块中使用。

详见下表 DataArts Studio其他组件支持的数据源

数据源类型	管理中心	数据架构	数据开发	数据目录[1]	数据质量[2]	数据服务
数据仓库服务（DWS）	√	√	√	√	√	√
数据湖探索（DLI）	√	√	√	√	√	√
MapReduce服务（MRS HBase）	√	×	×	√	×	×
MapReduce服务（MRS Hive）	√	√	√	√	√	×
MapReduce服务（MRS Kafka）	√	×	√	×	×	×
MapReduce服务（MRS Ranger）	√	×	×	×	×	×
MySQL	√	×	×	×	√	√
MapReduce服务（MRS Spark）	√	×	√	×	√	×
云数据库RDS（MySQL）	√	×	√	√	√	√
云数据库RDS（PostgreSQL）	√	√	√	√	√	×
主机连接	√	×	√	×	×	×
MapReduce服务（MRS Presto）	√	×	√	×	×	×

注释：

[1] 数据目录： 数据目录组件除了上表中列出的数据源外，还支持采集以下数据源的元数据：

关系型数据库如MySQL/PostgreSQL/达梦数据库DM等（可使用RDS类型连接，采集其元数据）
云搜索服务CSS
图引擎服务GES
对象存储服务OBS

[2] 数据质量 ：数据质量组件中的质量作业和对账作业功能不支持对接MRS集群存算分离的场景。

数据源简介

数据源类型	简介
数据仓库服务（DWS）	DWS是基于Shared-nothing分布式架构，具备MPP大规模并行处理引擎，兼容标准ANSI SQL 99和SQL 2003，同时兼容PostgreSQL/Oracle数据库生态，为各行业PB级海量大数据分析提供有竞争力的解决方案。
数据湖探索（DLI）	DLI是完全兼容Apache Spark和Apache Flink生态，实现批流一体的Serverless大数据计算分析服务。DLI支持多模引擎，企业仅需使用SQL或程序就可轻松完成异构数据源的批处理、流处理、内存计算、机器学习等，挖掘和探索数据价值。
MapReduce服务（MRS HBase）	HBase是一个开源的、面向列（Column-Oriented）、适合存储海量非结构化数据或半结构化数据的、具备高可靠性、高性能、可灵活扩展伸缩的、支持实时数据读写的分布式存储系统。使用MRS HBase可实现海量数据存储，并实现毫秒级数据查询。选择MRS HBase可以实现物流数据毫秒级实时入库更新，并支持百万级时序数据查询分析。
MapReduce服务（MRS Hive）	Hive是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言，称为HiveQL，它允许熟悉SQL的用户查询数据。使用MRS Hive可实现TB/PB级的数据分析，快速将线下Hadoop大数据平台（CDH、HDP等）迁移上云，业务迁移 “0”中断，业务代码 “0”改动。
MapReduce服务（MRS Kafka）	MapReduce服务可提供专属MRS Kafka集群。Kafka是一个分布式的、分区的、多副本的消息发布-订阅系统，它提供了类似于JMS的特性，但在设计上完全不同，它具有消息持久化、高吞吐、分布式、多客户端支持、实时等特性，适用于离线和在线的消息消费，如常规的消息收集、网站活性跟踪、聚合统计系统运营数据（监控数据）、日志收集等大量数据的互联网服务的数据收集场景。
MapReduce服务（MRS Ranger）	Ranger提供一个集中式安全管理框架，提供统一授权和统一审计能力。它可以对整个Hadoop生态中如HDFS、Hive、HBase、Kafka、Storm等进行细粒度的数据访问控制。用户可以利用Ranger提供的前端WebUI控制台通过配置相关策略来控制用户对这些组件的访问权限。
MySQL	MySQL是目前最受欢迎的开源数据库之一，其性能卓越，架构成熟稳定，支持流行应用程序，适用于多领域多行业，支持各种WEB应用，成本低，中小企业首选。
MapReduce服务（MRS Spark）	Spark是一个开源的，并行数据处理框架，能够帮助用户简单的开发快速、统一的大数据应用，对数据进行协处理、流式处理、交互式分析等等。 Spark提供了一个快速的计算、写入以及交互式查询的框架。相比于Hadoop，Spark拥有明显的性能优势。Spark提供类似SQL的Spark SQL语言操作结构化数据。
云数据库RDS	RDS是一种基于云计算平台的即开即用、稳定可靠、弹性伸缩、便捷管理的在线关系型数据库服务。注意，DataArts Studio平台目前仅支持RDS中的MySQL和PostgreSQL数据库。
主机连接	通过主机连接，用户可以在DataArts Studio数据开发中连接到指定的主机，通过脚本开发和作业开发在主机上执行Shell或Python脚本。主机连接保存连接某个主机的连接信息，当主机的连接信息有变化时，只需在主机连接管理中编辑修改，而不需要到具体的脚本或作业中逐一修改。
MapReduce服务（MRS Presto）	Presto是一个开源的用户交互式分析查询的SQL查询引擎，用于针对各种大小的数据源进行交互式分析查询。其主要应用于海量结构化数据/半结构化数据分析、海量多维数据聚合/报表、ETL、Ad-Hoc查询等场景。 Presto允许查询的数据源包括Hadoop分布式文件系统（HDFS），Hive，HBase，Cassandra，关系数据库甚至专有数据存储。一个Presto查询可以组合不同数据源，执行跨数据源的数据分析。

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

查看所有产品

数据治理中心 DataArts Studio

数据治理中心 DataArts Studio

DataArts Studio支持的数据源

数据源简介

活动

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

查看所有产品

数据治理中心 DataArts Studio

数据治理中心 DataArts Studio

DataArts Studio支持的数据源

数据源简介