Spark 2.2.1 集成Hive数据仓库的案例与解读-天翼云

Spark 2.2.1 集成Hive数据仓库的案例与解读

2023-06-14 09:13:05 阅读次数：395

Spark 2.2.1 集成Hive数据仓库的案例与解读

一般情况下，各个公司都会建立自己的数据仓库，尤其是当前大数据生态圈中使用最普遍的Hive数据仓库，需要集成这部分数据，向外提供这部分数据的查询接口。Spark SQL提供了分布式SQL引擎，支持直接运行SQL查询的接口，不用写任何代码。

运行的集群环境说明：在新建的集群上运行，部署Spark 2.2.1版本和Hadoop 2.6.0版本，Hive 版本为apache-hive-1.2.1，对应Mysql数据库的驱动Jar包为：mysql-connector-java-5.1.35.tar.gz。

(一) ThriftJDBC/ODBC的案例。

Spark SQL提供Thrift JDBC/ODBC支持，实现的Thrift JDBC/ODBC服务器与Hive HiveServer2相一致。可以用在Spark 或者Hive附带的Beeline脚本测试JDBC服务器。

下面给出两种方式启动JDBC/ODBC服务的案例。参考Hive的默认配置文件中的属性：

<property>

   <name>hive.server2.transport.mode</name>

   <value>binary</value>

    <description>

      Expects oneof [binary, http].

      Transportmode of HiveServer2.

   </description>

  </property>

传输模式支持两种（Binary和Http）

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

Spark 2.2.1 集成Hive数据仓库的案例与解读

Spark 2.2.1 集成Hive数据仓库的案例与解读

相关文章

深入了解Java在人工智能领域的最新应用

Spark 与 Flink 的对比：哪个更适合实时处理？

【数据仓库设计基础（三）】数据集市

【数据仓库基础（四）】数据仓库需求：基本需求和数据需求

【数据仓库设计基础（四）】数据仓库实施步骤

【数据仓库-零】数据仓库知识体系 ing

【数仓基础（一）】基础概念：数据仓库【用于决策的数据集合】的概念、建立数据仓库的原因与好处

【Trino权威指南（第二版）】Trino介绍：trino解决大数带来的问题

【Hive 运维】JDBC使用Hive UDF：Hive UDF打通hiveserver2

【Hive】学习路线：架构、运维、Hsql实战、源码分析

作者介绍

最新文章

Spark 与 Flink 的对比：哪个更适合实时处理？

【数据仓库设计基础（三）】数据集市

【数据仓库基础（四）】数据仓库需求：基本需求和数据需求

【数据仓库-零】数据仓库知识体系 ing

【Trino权威指南（第二版）】Trino介绍：trino解决大数带来的问题

漫谈大数据 - Spark SQL详解，参数调优

热门文章

DataGrip连接Hive、Impala数据源

大数据Spark “蘑菇云”行动第93课：Hive中的内置函数、UDF、UDAF实战

大数据Spark “蘑菇云”行动第94课：Hive性能调优之Mapper和Reducer设置、队列设置和并行执行、JVM重用和动态分区、Join调优

Hive常用的数据类型

数仓之数据质量及Apache Griffin简介

Apache Spark 的基本概念和在大数据分析中的应用

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

Spark 与 Flink 的对比：哪个更适合实时处理？

Hive常用的数据类型

【数据仓库设计基础（三）】数据集市

数据仓库与数据挖掘

【数据仓库基础（四）】数据仓库需求：基本需求和数据需求

Apache Spark 的基本概念和在大数据分析中的应用