textfile,sequencefile和rcfile的使用与区别详解-天翼云

textfile,sequencefile和rcfile的使用与区别详解

2023-07-17 06:51:22 阅读次数：363

hive在创建表时默认存储格式是textfile,或者显示自定义的stored as textfile.很多人知道 hive 常用的存储格式有三种，textfile,sequencefile,rcfile.但是却说不清楚这三种格式的干什么用的，本质有有什么区别？适合什么时候用？

为什么hive会有多种存储格式？

因为hive是文本批处理系统，所以就存在一个往hive中导入数据的问题，首先数据的存储格式有多种，比如数据源是二进制格式，普通文本格式等等，而hive强大之处不要求数据转换成特定的格式，而是利用hadoop本身InputFormat API来从不同的数据源读取数据，同样地使用 OutputFormat API 将数据写成不同的格式。所以对于不同的数据源，或者写出不同的格式就需要不同的对应的InputFormat和Outputformat类的实现。

以stored as textfile（其实这就是下面stored as inputformat -outputformat的缩减写法）为例，其在底层java API中表现是输入InputFormat格式:TextInputFormat以及输出OutputFormat格式:HiveIgnoreKeyTextOutputFormat.这里InputFormat中定义了如何对数据源文本进行读取划分，以及如何将切片分割成记录存入表中。而Outputformat定义了如何将这些切片写回到文件里或者直接在控制台输出。

  STORED AS INPUTFORMAT 
           'org.apache.hadoop.mapred.TextInputFormat' 
  OUTPUTFORMAT 
          'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'

textfile,sequencefile和rcfile的使用与区别详解

实际上hive使用一个 TextInputFormat 对象将输入流分割成记录，然后使用一个 HiveIgnoreKeyTextOutputFormat 对象来将记录格式化为输出流（比如查询的结果），再使用 Serde 在读数据时将记录解析成列。在写数据时将列编码成记录。所以stored as ''只是决定了行级别（记录级别）的存储格式，而实际将记录解析成列依靠的则是Serde对象，比如hive默认的ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' 。或者用户自定义的Serde格式。

textfile,sequencefile和rcfile的三种存储格式的本质和区别

	文件存储编码格式	建表时如何指定	优点弊端
textfile	文件存储就是正常的文本格式，将表中的数据在hdfs上以文本的格式存储，下载后可以直接查看，也可以使用cat命令查看	1.无需指定，默认就是 2.显示指定stored as textfile 3.显示指定 STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'	1.行存储使用textfile存储文件默认每一行就是一条记录， 2.可以使用任意的分隔符进行分割。 3.但无压缩，所以造成存储空间大。可结合Gzip、Bzip2、Snappy等使用（系统自动检查，执行查询时自动解压），但使用这种方式，hive不会对数据进行切分，从而无法对数据进行并行操作。
sequencefile	在hdfs上将表中的数据以二进制格式编码，并且将数据压缩了，下载数据以后是二进制格式，不可以直接查看，无法可视化。	1.stored as sequecefile 2.或者显示指定： STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.SequenceFileInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat	1.sequencefile存储格有压缩，存储空间小，有利于优化磁盘和I/O性能 2.同时支持文件切割分片，提供了三种压缩方式：none,record,block（块级别压缩效率跟高）.默认是record(记录) 3.基于行存储
rcfile	在hdfs上将表中的数据以二进制格式编码，并且支持压缩。下载后的数据不可以直接可视化。	1.stored as rcfile 2.或者显示指定： STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.RCFileInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.RCFileOutputFormat'	1.行列混合的存储格式，基于列存储。 2.因为基于列存储，列值重复多，所以压缩效率高。 3.磁盘存储空间小，io小。

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

textfile,sequencefile和rcfile的使用与区别详解

textfile,sequencefile和rcfile的使用与区别详解

为什么hive会有多种存储格式？

textfile,sequencefile和rcfile的三种存储格式的本质和区别

相关文章

javascript 西瓜一期 05-08 计算机的基本组成

第13关：存储过程1、第14关：存储过程2。

【JAVA】-- 集合（三）（Set）

你应该知道一些其他存储——列式存储

分布式存储技术

数据库设计与管理的要点详解

什么是归档日志，日志归档简介

hive执行分区修复语句（MSCK REPAIR TABLE）时报FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.

cookie session localstroage 区别

sql server 创建存储过程 实例

作者介绍

最新文章

第13关：存储过程1、第14关：存储过程2。

你应该知道一些其他存储——列式存储

数据库设计与管理的要点详解

什么是归档日志，日志归档简介

cookie session localstroage 区别

sql server 创建存储过程 实例

热门文章

Ceph 块设备存储

存储相关

vmware

Sql Server 分页存储过程

Raid5两块硬盘掉线数据恢复方法和数据恢复过程

vsan存储介绍/存储原理/数据恢复案例

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

MySQL之存储过程创建和调用

【存储数据恢复】EMC存储raid5崩溃导致上层lun无法使用的数据恢复案例

视频结构化从入门到精通——认识视频结构化

算法&数据结构 - 线性表及其链式存储结构

深入探析Redis常见数据类型及应用场景

bat脚本字符串替换：路径中\\需要替换，解决一些文件写入路径不对的问题

sql server 创建存储过程实例

sql server 创建存储过程实例