外表与GDS外表支持的数据格式有什么区别?
OBS与GDS外表支持格式文件区别如下:
OBS支持的文件格式:CSV、TEXT、ORC、CARBONDATA,缺省值为TEXT
GDS支持的文件格式:CSV、TEXT,缺省值为TEXT
数据如何存储到数据仓库服务?
DWS支持多数据源高效入库,典型的入库方式如下所示。详细指导请参见《数据仓库服务数据库开发指南》中的“导入数据”章节。
- 从OBS导入数据
数据上传到OBS对象存储服务中,再从OBS中导入,支持CSV,TEXT格式数据。
- 通过INSERT语句直接插入数据
用户可以通过DWS提供的客户端工具(gsql)或者JDBC/ODBC驱动从上层应用向DWS写入数据。DWS支持完整的数据库事务级别的增删改(CRUD)操作。这是最简单的一种方式,这种方式适合数据写入量不太大, 并发度不太高的场景。
- 从MRS导入数据,将MRS作为ETL
- 通过COPY FROM STDIN方式导入数据。
通过COPY FROM STDIN命令写数据到一个表。
- 使用GDS从远端服务器导入数据到DWS
当用户需要将普通文件系统(例如,弹性云主机)中的数据文件导入到DWS时,可以使用DWS提供的GDS导入数据的功能。
数据仓库可以存储多少业务数据?
数据仓库集群每个节点默认能够支持1.49TB、2.98TB、4.47TB、160GB、1.68TB、13.41TB六种规格的存储容量,一个集群支持的节点数范围为3~256,集群总的存储容量随集群规模等比例扩充。
为增强可靠性,每个节点都有一个副本,副本会占用一半的存储空间,选择容量时副本容量会自动翻倍存储。
数据仓库系统会备份数据,生成索引、临时缓存文件、运行日志等内容,并占用存储容量。每个节点实际存储的数据,大致为总存储容量的一半。
如何使用\copy导入导出?
由于云上DWS是全托管服务,用户无法登录后台,无法使用copy进行导入导出文件,所以云上将copy语法禁掉。云上推荐将数据文件放到obs上,使用obs外表进行入库,如果需要使用copy导入导出数据,可以参考如下方法:
1.将数据文件放到客户端的机器上。
2.使用gsql连接集群。
3.执行如下命令导入数据,输入数据文件在客户端的目录信息和文件名,with中指定导入选项,跟正常copy一样,但是需要在copy前添加""标识,入库成功后不会有消息提示。
\copy tb_name from '/directory_name/file_name' with(...);
4.执行如下命令,使用默认参数直接导出数据到本地文件。
\copy table_name to '/directory_name/file_name';
5.使用copy_option参数导出为CSV文件。
\copy table_name to '/directory_name/file_name' CSV;
6.使用with指定option参数,导出为CSV文件,分隔符为'|'。
\copy table_name to '/directory_name/file_name' with(format 'csv',delimiter '|') ;
是否支持跨Region进行OBS导入或导出数据?
不支持。
DWS不支持跨Region进行OBS导入或导出数据,必须确保DWS集群和OBS在同一个Region内。
在创建DWS集群和OBS时,请您务必关注所属Region。
DWS/Oracle/MySQL/SQL Server的数据如何导入/迁移到DWS(整库迁移)?
对于异构数据的入库,可通过CDM迁移,支持Oracle、MySQL、SQL Server的整库迁移,以及老DWS导入到新DWS的整库迁移。
您也可以将数据存入OBS再转储至DWS,详情请参见《数据仓库服务开发指南》的“关于OBS并行导入”章节。
GDS导入数据时是否支持使用公网/外网导入?
不支持。
GDS导入数据的原理是,GDS服务器和DWS在内网互通的前提下,使用集群内每个DN去并行连接GDS服务器,以达到大容量并行导入的目的,因此必须确保GDS服务器与集群在同一个网络内。如果GDS为线下服务器,则需要打通防火墙,并且DWS集群需要使用EIP,但一个集群只能绑定一个EIP,也无法实现GDS的多DN连接导入。
DWS导入性能都和哪些因素有关联?
dws的导入性能受多方面因素影响,主要有以下几点:
1.集群规格:磁盘io、网络吞吐、内存、cpu规格等。
2.业务规划:表字段的类型、是否压缩、行存还是列存。
3.数据存储:集群本地、OBS等。
4.数据导入的方式选择等。