大数据篇（五） Spark SQL简介-天翼云

大数据篇（五） Spark SQL简介

2024-05-24 07:47:12 阅读次数：42

是什么

Spark SQL 是 Spark 用于结构化数据(structured data)处理的 Spark 模块。

发展

SparkSQL 的前身是 Shark，给熟悉 RDBMS 但又不理解 MapReduce 的技术人员提供快速上手的工具。

Hive 是早期唯一运行在 Hadoop 上的 SQL-on-Hadoop 工具。但是 MapReduce 计算过程中大量的中间磁盘落地过程消耗了大量的 I/O，降低的运行效率，为了提高 SQL-on-Hadoop 的效率，大量的 SQL-on-Hadoop 工具开始产生，其中表现较为突出的是：

⚫ Drill
⚫ Impala
⚫ Shark

Shark 对于 Hive 的太多依赖，于是重新开发了SparkSQL代码

SparkSQL 特点

易整合

统一的数据访问

兼容 Hive

标准数据连接

数据结构

DataFrame

在 Spark 中，DataFrame 是一种以 RDD 为基础的分布式数据集，类似于传统数据库中的二维表格。DataFrame 与 RDD 的主要区别在于，前者带有 schema 元信息，即 DataFrame

DataSet

DataSet 是分布式数据集合。DataSet 是 Spark 1.6 中添加的一个新抽象，是 DataFrame 的一个扩展。它提供了 RDD 的优势（强类型，使用强大的 lambda 函数的能力）以及 Spark SQL 优化执行引擎的优点。DataSet 也可以使用功能性的转换（操作 map，flatMap，filter 等等）。

DataSet 是 DataFrame API 的一个扩展，是 SparkSQL 最新的数据抽象

➢ 用户友好的 API 风格，既具有类型安全检查也具有 DataFrame 的查询优化特性；

➢ 用样例类来对 DataSet 中定义数据的结构信息，样例类中每个属性的名称直接映射到 DataSet 中的字段名称；

➢ DataSet 是强类型的。比如可以有 DataSet[Car]，DataSet[Person]。

➢ DataFrame 是 DataSet 的特列，DataFrame=DataSet[Row] ，所以可以通过 as 方法将 DataFrame 转换为 DataSet。Row 是一个类型，跟 Car、Person 这些的类型一样，所有的表结构信息都用 Row 来表示。获取数据时需要指定顺序

RDD、DataFrame、DataSet 三者的关系

Spark1.0 => RDD

➢ Spark1.3 => DataFrame

➢ Spark1.6 => Datase

在后期的 Spark 版本中，DataSet 有可能会逐步取代 RDD 和 DataFrame 成为唯一的 API 接口。

共性

RDD、DataFrame、DataSet 全都是 spark 平台下的分布式弹性数据集，为处理超大型数据提供便利;

➢ 三者都有惰性机制，在进行创建、转换，如 map 方法时，不会立即执行，只有在遇到 Action 如 foreach 时，三者才会开始遍历运算; ➢ 三者有许多共同的函数，如 filter，排序等;

➢ 在对 DataFrame 和 Dataset 进行操作许多操作都需要这个包:import spark.implicits._（在创建好 SparkSession 对象后尽量直接导入）

➢ 三者都会根据 Spark 的内存情况自动缓存运算，这样即使数据量很大，也不用担心会内存溢出

➢ 三者都有 partition 的概念

➢ DataFrame 和 DataSet 均可使用模式匹配获取各个字段的值和类型

区别

RDD

➢ RDD 一般和 spark mllib 同时使用

➢ RDD 不支持 sparksql 操作

DataFrame

➢ 与 RDD 和 Dataset 不同，DataFrame 每一行的类型固定为 Row，每一列的值没法直接访问，只有通过解析才能获取各个字段的值

➢ DataFrame 与 DataSet 一般不与 spark mllib 同时使用

DataFrame 与 DataSet 均支持 SparkSQL 的操作，比如 select，groupby 之类，还能注册临时表/视窗，进行 sql 语句操作

➢ DataFrame 与 DataSet 支持一些特别方便的保存方式，比如保存成 csv，可以带上表头，这样每一列的字段名一目了然(后面专门讲解)

DataSet

➢ Dataset 和 DataFrame 拥有完全相同的成员函数，区别只是每一行的数据类型不同。 DataFrame 其实就是 DataSet 的一个特例 type DataFrame = Dataset[Row]

➢ DataFrame 也可以叫 Dataset[Row],每一行的类型是 Row，不解析，每一行究竟有哪些字段，各个字段又是什么类型都无从得知，只能用上面提到的 getAS 方法或者共性中的第七条提到的模式匹配拿出特定字段。而 Dataset 中，每一行是什么类型是不一定的，在自定义了 case class 之后可以很自由的获得每一行的信息

大数据篇（五） Spark SQL简介

活动

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

大数据篇（五） Spark SQL简介

大数据篇（五） Spark SQL简介

是什么

发展

SparkSQL 特点

数据结构

DataFrame

DataSet

RDD、DataFrame、DataSet 三者的关系

共性

区别

相关文章

K 个关闭的灯泡。 N 个灯泡排成一行，编号从 1 到 N 。最初，所有灯泡都关闭。每天只打开一个灯泡，直到 N 天后所有灯泡都打开。

有一批气象观测站，现需要获取这些站点的观测数据，并存储到 Hive 中。但是气象局只提供了 api 查询，每次只能查询单个观测点。那么如果能够方便快速地获取到所有的观测点的数据？

课程表 III。 这里有 n 门不同的在线课程，按从 1 到 n 编号。

推箱子自动求解。

手写归并排序

已知两个非负数的异或值为M，两数之和为N，求这两个数？

罗马数字转整数。

Java学习while循环练习-珠穆朗玛峰（应用）

1到100万以内，如何打印99万个不重复的随机数？

java基础（1）

作者介绍

最新文章

手写归并排序

课程表 III。 这里有 n 门不同的在线课程，按从 1 到 n 编号。

罗马数字转整数。

1到100万以内，如何打印99万个不重复的随机数？

JAVA math包

sqoop 的安装与常用抽数操作

热门文章

Lc70_爬楼梯

算法-实现 出入栈，寻找最小值

冒泡排序法解析

使用LinkedHashMap实现简单的LRU

58如何调出eclipse左边文件栏

java163-同步方法锁

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

elasticsearch中文档映射Mapping用法详解

生成长度为size的达标数组，什么叫达标？达标：对于任意的 i＜k＜j，满足 [i] + [j] != [k] * 2。给定一个正数size，返回长度为size的达标数组。

给定一个非负数组成的数组，长度一定大于1，想知道数组中哪两个数&的结果最大。

【大数据篇】Spark运行时架构详解

课程表 III。 这里有 n 门不同的在线课程，按从 1 到 n 编号。

安装栅栏。 在一个二维的花园中，有一些用 (x, y) 坐标表示的树。由于安装费用十分昂贵，你的任务是先用最短的绳子围起所有的树。只有当所有的树都被绳子包围时，花园才能围好栅栏。

课程表 III。这里有 n 门不同的在线课程，按从 1 到 n 编号。

课程表 III。这里有 n 门不同的在线课程，按从 1 到 n 编号。

算法-实现出入栈，寻找最小值

课程表 III。这里有 n 门不同的在线课程，按从 1 到 n 编号。

安装栅栏。在一个二维的花园中，有一些用 (x, y) 坐标表示的树。由于安装费用十分昂贵，你的任务是先用最短的绳子围起所有的树。只有当所有的树都被绳子包围时，花园才能围好栅栏。