Hive中Join的 MR 底层原理-天翼云

Hive中Join的 MR 底层原理

2023-07-17 06:50:32 阅读次数：358

笼统的说，Hive中的Join可分为Common Join（Reduce阶段完成join）和Map Join（Map阶段完成join）。本文简单介绍一下两种join的原理和机制。

一、 Hive Common Join

如果不指定MapJoin或者不符合MapJoin的条件，那么Hive解析器会将Join操作转换成Common Join,即：在Reduce阶段完成join.
整个过程包含Map、Shuffle、Reduce阶段。

Map阶段

读取源表的数据，Map输出时候以 Join on 条件中的列为key，如果Join有多个关联键，则以这些关联键的组合作为key;
Map输出的 value 为 join 之后所关心的(select或者where中需要用到的)列；同时在value中还会包含表的 Tag 信息，用于标明此value对应哪个表；
按照key进行排序

Shuffle阶段

根据key的值进行hash,并将key/value按照hash值推送至不同的reduce中，这样确保两个表中相同的key位于同一个reduce中

Reduce阶段
根据key的值完成join操作，期间通过Tag来识别不同表中的数据。

以下面的HQL为例，图解其过程：

SELECT
a.id,a.dept,b.age
FROM a join b
ON (a.id = b.id);

Hive中Join的 MR 底层原理

看了这个图，应该知道如何使用MapReduce进行join操作了吧。

二、 Hive Map Join

MapJoin通常用于一个很小的表和一个大表进行 Join 的场景，具体小表有多小，由参数hive.mapjoin.smalltable.filesize来决定，该参数表示小表的总大小，默认值为25000000字节，即25M。
0.7版本之后，默认自动会转换Map Join，由参数 hive.auto.convert.join 来控制，默认为true.
仍然以前面的HQL来说吧，假设a表为一张大表，b为小表，并且hive.auto.convert.join=true,那么Hive在执行时候会自动转化为MapJoin。

Hive中Join的 MR 底层原理

如图中的流程，首先是Task A，它是一个Local Task（在客户端本地执行的Task），负责扫描小表b的数据，将其转换成一个HashTable的数据结构，并写入本地的文件中，之后将该文件加载到DistributeCache中，该HashTable的数据结构可以抽象为：

key	value
1	26
2	34

Hive中Join的 MR 底层原理

图中红框圈出了执行Local Task的信息。

接下来是Task B，该任务是一个没有Reduce的MR，启动MapTasks扫描大表a,在Map阶段，根据 a 的每一条记录去和DistributeCache中 b 表对应的 HashTable 关联，并直接输出结果。
由于 MapJoin 没有Reduce，所以由 Map直接输出结果文件，有多少个Map Task，就有多少个结果文件。

转载：lxw的大数据田地 » [一起学Hive]之十-Hive中Join的原理和机制

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

Hive中Join的 MR 底层原理

Hive中Join的 MR 底层原理

一、 Hive Common Join

二、 Hive Map Join

相关文章

for...in、for...of和其他循环的区别

javaScript Array.Map的使用

【Hive 运维】JDBC使用Hive UDF：Hive UDF打通hiveserver2

【Hive】学习路线：架构、运维、Hsql实战、源码分析

【Autowired自动注入map】

漫谈大数据 - Spark SQL详解，参数调优

漫谈大数据 - Spark on Hive & Hive on Spark

有一批气象观测站，现需要获取这些站点的观测数据，并存储到 Hive 中。但是气象局只提供了 api 查询，每次只能查询单个观测点。那么如果能够方便快速地获取到所有的观测点的数据？

Hive是什么，Hive介绍

java遍历map集合那种方式最快

作者介绍

最新文章

java遍历map集合那种方式最快

Hive内部函数简介及查询语法

Sqoop从Hive导出表到Mysql报错处理

1.9 集合

JSP之EL表达式和JSTL标签库

JAVA & Map集合详解

热门文章

将SQL文件导入Hive

Hive on Spark调优

hive 小文件过多解决方案

Hive系列之开窗函数

Sqoop从Hive导出表到Mysql报错处理

webpack下的Source Map

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

将SQL文件导入Hive

JSP之EL表达式和JSTL标签库

tez得文件生成个数与什么有关？

webpack下的Source Map

Hive系列之开窗函数

MyBatis Map结果的Key转为驼峰式2