本章节以新建MRS Hive连接为例,介绍如何建立DataArts Studio与数据湖底座之间的数据连接。
前提条件
- 在创建数据连接前,请确保您已创建所要连接的数据湖(如DataArts Studio所支持的数据库、云服务等)。
- 在创建DWS类型的数据连接前,您需要先在DWS服务中创建集群,并且具有KMS密钥的查看权限。
- 在创建MRS HBase、MRS Hive、MRS Kafka、MRS Ranger、MRS Spark、MRS Presto类型的数据连接前,需确保您已创建MRS集群,并且在创建数据链接时已创建选择所需要的组件。
- 在创建RDS类型的数据连接前,请确保您已创建RDS数据库实例。DataArts Studio平台目前仅支持RDS中的MySQL和PostgreSQL数据库引擎。
- 在创建数据连接前,请确保待连接的数据湖与DataArts Studio实例之间网络互通。
- 如果数据湖为云下的数据库,则需要通过公网或者专线打通网络,确保数据源所在的主机可以访问公网,并且防火墙规则已开放连接端口。
- 如果数据湖为云上服务(如DWS、MRS等),则网络互通需满足如下条件:
①DataArts Studio实例(指DataArts Studio实例中的CDM集群)与云上服务处于不同区域的情况下,需要通过公网或者专线打通网络。
② DataArts Studio实例(指DataArts Studio实例中的CDM集群)与云上服务同区域情况下,同虚拟私有云、同子网、同安全组的不同实例默认网络互通;如果同虚拟私有云但是子网或安全组不同,还需配置路由规则及安全组规则,配置路由规则请参见《虚拟私有云》帮助文档中的“添加路由信息”章节,配置安全组规则请参见《虚拟私有云》帮助文档中的“安全组 > 添加安全组规则”章节。
③此外,您还必须确保该云服务的实例与DataArts Studio工作空间所属的企业项目必须相同,如果不同,您需要修改工作空间的企业项目。
创建数据连接
- 在DataArts Studio控制台首页,选择对应工作空间的“管理中心”模块,进入管理中心页面。
详见下图:选择管理中心
- 在管理中心页面,单击“数据连接”,进入数据连接页面。
详见下图:创建数据连接
- 单击“创建数据连接”,在弹出的对话框中,选择“数据连接类型”为“MapReduce服务(MRS Hive)”,详见下方图片创建数据连接 及 MRS Hive连接配置参数,并参见表MRS Hive数据连接配置相关参数。
MRS Hive连接配置参数
详见下表:MRS Hive数据连接
参数 | 是否必选 | 说明 |
---|---|---|
数据连接名称 | 是 | 数据连接的名称,只能包含英文字母、数字、下划线和中划线,且长度为1~50个字符。 |
标签 | 否 | 标识数据连接的属性。设置标签后,便于统一管理。 说明 标签的名称,只能包含中文、英文字母、数字和下划线,不能以下划线开头。且长度不能超过100个字符。 |
集群名 | 是 | 选择Hive所属的MRS集群。如果在下拉列表中无法显示MRS集群,请检查MRS集群与DataArts Studio实例是否网络互通。 需确保MRS集群和DataArts Studio实例之间网络互通,网络互通需满足如下条件: DataArts Studio实例(指DataArts Studio实例中的CDM集群)与MRS集群处于不同区域的情况下,需要通过公网或者专线打通网络。通过公网互通时,需确保CDM集群已绑定EIP,MRS集群可以访问公网且防火墙规则已开放连接端口。 DataArts Studio实例(指DataArts Studio实例中的CDM集群)与MRS集群同区域情况下,同虚拟私有云、同子网、同安全组的不同实例默认网络互通;如果同虚拟私有云但子网或安全组不同,还需配置路由规则及安全组规则,配置路由规则请参见《虚拟私有云》帮助文档中的“自定义路由(Region TypeⅠ)>添加路由信息”章节,配置安全组规则请参见《虚拟私有云》帮助文档中的“安全组>添加安全组规则”章节。 此外,还需确保该MRS集群与DataArts Studio工作空间所属的企业项目相同,如果不同,您需要修改工作空间的企业项目。 |
连接方式 | 是 | 选择所需的连接方式,推荐使用“通过代理连接”。 通过代理连接:通过Agent(即CDM集群)进行代理,以MRS集群的用户名和密码访问MRS集群。代理连接方式支持MRS所有版本的集群。 MRS API连接:以MRS API的方式访问MRS集群。MRS API连接仅支持2.X及更高版本的MRS集群。 选择MRS API连接时,有以下约束: 1. 无法查看表和字段。 2. 在SQL编辑器运行SQL时,只能以日志形式显示执行结果。 3. 数据治理(如数据架构、数据质量、数据目录等组件)功能无法使用MRS API连接。 说明 为保证数据架构、数据质量、数据目录、数据服务等组件能够使用此MRS连接,此处连接方式推荐配置为“通过代理连接”。 |
用户名 | 否 | MRS集群的用户名,通过代理连接的时候,是必选项。如果使用新建的MRS用户进行连接,您需要先登录Manager页面,并更新初始密码。 如果要创建MRS安全集群的数据连接,不能使用admin用户。因为admin用户是默认的管理页面用户,这个用户无法作为安全集群的认证用户来使用。您可以参考创建数据连接章节中的 创建MRS安全集群的kerberos认证用户 创建一个新的MRS用户,然后在创建MRS数据连接时,“用户名”和“密码”填写为新建的MRS用户及其密码。 说明 MRS 3.1.0及之后版本集群,所创建的用户至少需具备Manager_viewer的角色权限才能在管理中心创建连接;如果需要对应组件的进行库、表、数据的操作,还需要添加对应组件的用户组权限。 MRS 3.1.0版本之前的集群,所创建的用户需要具备Manager_administrator或System_administrator权限,才能在管理中心创建连接。 仅具备Manager_tenant或Manager_auditor权限,无法创建连接。 |
密码 | 否 | MRS集群的访问密码,通过代理连接的时候,是必选项。 |
KMS密钥 | 否 | KMS密钥名称。通过代理连接的时候,是必选项。 |
绑定Agent | 否 | 通过代理连接的时候,是必选项。 MRS为非全托管服务,DataArts Studio无法直接与非全托管服务进行连接。CDM集群提供了DataArts Studio与非全托管服务通信的代理,所以创建MRS的数据连接时,请选择一个CDM集群。如果没有可用的CDM集群,请先通过数据集成增量包进行创建。 CDM集群作为网络代理,必须和MRS集群网络互通才可以成功创建MRS连接,为确保两者网络互通,CDM集群必须和MRS集群处于相同的区域、可用区、VPC和子网,安全组规则需允许两者网络互通。 |
- 单击“测试”,测试数据连接的连通性。如果无法连通,数据连接将无法创建。
- 测试通过后,单击“确定”,创建数据连接。
参考
- 在创建数据连接的界面上MRS Hive集群不显示?
出现该问题的可能原因有:
- 创建MRS集群时未选择Hive/HBase组件。
- 创建MRS数据连接时所选择的CDM集群和MRS集群网络不互通。CDM集群作为网络代理,与MRS集群需网络互通才可以成功创建基于MRS的数据连接。
- 为什么Hive数据连接突然无法获取数据库或表的信息?
可能是由于CDM集群被关闭或者并发冲突导致,您可以通过切换agent代理来临时规避此问题。