26 MAPREDUCE中的序列化-天翼云

26 MAPREDUCE中的序列化

2024-06-11 09:14:49 阅读次数：35

概述

Java的序列化是一个重量级序列化框架（Serializable），一个对象被序列化后，会附带很多额外的信息（各种校验信息，header，继承体系。。。。），不便于在网络中高效传输；
所以，hadoop自己开发了一套序列化机制Writable，精简，高效。

Jdk序列化和MR序列化之间的比较

简单代码验证两种序列化机制的差别：

public class TestSeri {
	public static void main(String[] args) throws Exception {
		
		//定义两个ByteArrayOutputStream，用来接收不同序列化机制的序列化结果
		ByteArrayOutputStream ba = new ByteArrayOutputStream();
		ByteArrayOutputStream ba2 = new ByteArrayOutputStream();

		//定义两个DataOutputStream，用于将普通对象进行jdk标准序列化
		DataOutputStream dout = new DataOutputStream(ba);
		DataOutputStream dout2 = new DataOutputStream(ba2);
		ObjectOutputStream obout = new ObjectOutputStream(dout2);
		
		//定义两个bean，作为序列化的源对象
		ItemBeanSer itemBeanSer = new ItemBeanSer(1000L, 89.9f);
		ItemBean itemBean = new ItemBean(1000L, 89.9f);

		//用于比较String类型和Text类型的序列化差别
		Text atext = new Text("a");
		// atext.write(dout);
		itemBean.write(dout);

		byte[] byteArray = ba.toByteArray();

		//比较序列化结果
		System.out.println(byteArray.length);
		for (byte b : byteArray) {

			System.out.print(b);
			System.out.print(":");
		}

		System.out.println("-----------------------");

		String astr = "a";
		// dout2.writeUTF(astr);
		obout.writeObject(itemBeanSer);

		byte[] byteArray2 = ba2.toByteArray();
		System.out.println(byteArray2.length);
		for (byte b : byteArray2) {
			System.out.print(b);
			System.out.print(":");
		}
	}
}

自定义对象实现MR中的序列化接口

如果需要将自定义的bean放在key中传输，则还需要实现comparable接口，因为mapreduce框中的shuffle过程一定会对key进行排序,此时，自定义的bean实现的接口应该是：
public class FlowBean implements WritableComparable<FlowBean>

需要自己实现的方法是：

	/**
	 * 反序列化的方法，反序列化时，从流中读取到的各个字段的顺序应该与序列化时写出去的顺序保持一致
	 */
	@Override
	public void readFields(DataInput in) throws IOException {
		
		upflow = in.readLong();
		dflow = in.readLong();
		sumflow = in.readLong();
		

	}

	/**
	 * 序列化的方法
	 */
	@Override
	public void write(DataOutput out) throws IOException {

		out.writeLong(upflow);
		out.writeLong(dflow);
		//可以考虑不序列化总流量，因为总流量是可以通过上行流量和下行流量计算出来的
		out.writeLong(sumflow);

	}
	
	@Override
	public int compareTo(FlowBean o) {
		
		//实现按照sumflow的大小倒序排序
		return sumflow>o.getSumflow()?-1:1;
	}

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

26 MAPREDUCE中的序列化

26 MAPREDUCE中的序列化

概述

Jdk序列化和MR序列化之间的比较

自定义对象实现MR中的序列化接口

相关文章

[python] ​Python数据序列化模块pickle使用笔记

有效提高java编程安全性的12条黄金法则

Flask ORM 学习笔记Part05：marshmallow的使用（中）

qs 用法

深度解析Java8社招面试题：Lambda序列化到底行不行？

C++算法：297二叉树的序列化与反序列化

【内存管理】flink内存管理(一)：内存管理概述：flink主动管理内存原理、flink内存模型

JaveSE—IO流详解：对象输入输出流（序列化及反序列化）

【Flink网络数据传输（4）】RecordWriter（下）封装数据并发送到网络的过程

【深度优先搜索 广度优先搜索】297. 二叉树的序列化与反序列化

作者介绍

最新文章

JaveSE—IO流详解：对象输入输出流（序列化及反序列化）

JAVA arraylist 如何深拷贝

出现 xx has no default (no arg) constructor 解决方法

Djando面试题——如何使用django加密

C的I/O操作

Unity Prefab中MonoBehaviour脚本修改带来的序列化问题

热门文章

【JAVA SE】—— 文件IO流 (经常忘记的知识点总结)

java基础 - 序列化

FastJson基本使用

【java基础】对象序列化和反序列化详解

反序列化漏洞演示

序列化和反序列化的原理

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

序列化和反序列化的原理

MFC序列化及反序列化变量

【java基础】对象序列化和反序列化详解

FastJson基本使用

java基础 - 序列化

JAVA arraylist 如何深拷贝

[python] Python数据序列化模块pickle使用笔记

【深度优先搜索广度优先搜索】297. 二叉树的序列化与反序列化