什么是DLI
数据湖探索(Data Lake Insight,简称DLI)是完全兼容Apache Spark、Apache Flink生态,提供一站式的流处理、批处理、交互式分析的Serverless融合处理分析服务。用户不需要管理任何服务器,即开即用。支持标准SQL/Spark SQL/Flink SQL,支持多种接入方式,并兼容主流数据格式。数据无需复杂的抽取、转换、加载,使用SQL或程序就可以对云上CloudTable、RDS、DWS、CSS、OBS、ECS自建数据库以及线下数据库的异构数据进行探索。
DLI支持哪些数据格式
DLI支持如下数据格式:
- Parquet
- CSV
- ORC
- Json
- Avro
DLI中的Spark组件与MRS中的Spark组件有什么区别?
DLI服务的Spark组件是全托管式服务,用户对Spark组件不感知,仅仅可以使用该服务,且接口为封装式接口。
MRS服务Spark组件的是建立在客户的购买MRS服务所分配的虚机上,用户可以根据实际需求调整及优化Spark服务,支持各种接口调用。
DLI的数据可存储在哪些地方
DLI服务的数据可存储在如下地方:
- OBS:SQL作业,Spark作业,Flink作业使用的数据均可以存储在OBS服务中,降低存储成本。
- DLI:DLI内部使用的是列存的Parquet格式,即数据以Parquet格式存储。存储成本较高。
- 跨源作业可将数据存储在对应的服务中,目前支持CloudTable,CSS,DCS,DDS,DWS,MRS,RDS等。
DLI表与OBS表的区别
- DLI表表示数据存储在本服务内部,用户不感知数据存储路径。
- OBS表表示数据存储在用户自己账户的OBS桶中,源数据文件由用户自己管理。
- DLI表相较于OBS表提供了更多权限控制和缓存加速的功能,性能相较于外表性能更好,但是会收取存储费用。
不上传数据到OBS,如何使用DLI
当前DLI只支持对云上数据分析,数据还是要传到云上,用户可以折中处理:将待分析的数据脱敏后上传到OBS临时存放,分析完之后将结果导出使用,同时将OBS临时存放数据删除。
该方法主要适用于定期(如每天)对增量数据一次性分析统计,然后利用分析结果支撑业务的场景。
对频繁需要分析的数据,还是建议将数据上传到云上。
DLI是否支持导入其他租户共享OBS桶的数据?
支持,但有限制。
在DLI中,同一个租户下子账户共享OBS桶中的数据是支持导入的,但是租户级别共享OBS桶中的数据无法导入。
Failed to create the database. {"error_code":"DLI.1028";"error_msg":"Already reached the maximum quota of databases:XXX". 提示配额不足,如何处理?
怎样查看我的配额
-
登录管理控制台。
-
单击页面右上角的“My Quota”图标 。
系统进入“服务配额”页面。
-
您可以在“服务配额”页面,查看各项资源的总配额及使用情况。
如果当前配额不能满足业务要求,请参考后续操作,申请扩大配额。
如何申请扩大配额?
目前系统暂不支持在线调整配额大小。如您需要调整配额,请拨打热线或发送邮件至客服,客服会及时为您处理配额调整的需求,并以电话或邮件的形式告知您实时进展。
在拨打热线或发送邮件之前,请您准备好以下信息:
- 帐号名,获取方式如下:
登录云帐户管理控制台,在右上角单击帐户名,选择“我的凭证”,在“我的凭证”页面获取“帐号名”。
- 配额信息,包括:服务名、配额类别、需要的配额值。
全局变量的使用中,一个子账号是否可以使用其他子账号创建的全局变量
全局变量可用于简化复杂参数。例如,可替换长难复杂变量,提升SQL语句可读性。
全局变量的使用具有以下约束限制:
- 只有创建全局变量的用户才可以使用对应的变量。
- 只有创建全局变量的用户才可以修改对应的变量。
- 只有创建全局变量的用户才可以删除对应的变量。