20、MapReduce 工作流介绍-天翼云

20、MapReduce 工作流介绍

2023-06-30 08:15:14 阅读次数：362

本文介绍MapReduce 工作流。
本文前提：hadoop环境可用。

一、MapReduce 工作流介绍

多个MR作业，先后依次执行来计算得出最终结果。这类作业类似于DAG的任务，各个作业之间有依赖关系，比如说，这一个作业的输入，依赖上一个作业的输出等等。

一般实际的业务场景中，可能使用定时调度工具进行调度，但本示例仅仅说明mapreduce自身也可以做到。

20、MapReduce 工作流介绍

JobControl类：工作流job控制器，一次可以提交、管理多个job。JobControl类实现了线程Runnable接口。需要实例化一个线程来让它启动。
ControlledJob类：可以将普通作业包装成受控作业。并且支持设置依赖关系。Hadoop会根据依赖的关系，先后执行job任务，每个任务的运行都是独立的。

二、使用示例

MapReduce的join操作将上述的Reduce side join 的例子连续起来运行，即第一步未排序输出，第二步针对上一步的输出进行排序。

1、实现

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.jobcontrol.ControlledJob;
import org.apache.hadoop.mapreduce.lib.jobcontrol.JobControl;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.hadoop.mr.join.reducerside.ReduceSideSortDriver;
import org.hadoop.mr.join.reducerside.ReduceSideSortMapper;
import org.hadoop.mr.join.reducerside.ReduceSideSortReducer;
import org.hadoop.mr.join.reducerside.ReducerSideJoinDriver;
import org.hadoop.mr.join.reducerside.ReducerSideJoinMapper;
import org.hadoop.mr.join.reducerside.ReducerSideJoinReducer;

public class MRFlowDriver {
	static String in = "D:/workspace/bigdata-component/hadoop/test/in/join";
	static String tempOut = "D:/workspace/bigdata-component/hadoop/test/out/reduceside/unsortjoin";
	static String out = "D:/workspace/bigdata-component/hadoop/test/out/reduceside/joinsort";

	public static void main(String[] args) throws Exception {
		Configuration conf = new Configuration();

		FileSystem fs = FileSystem.get(conf);
		if (fs.exists(new Path(out))) {
			fs.delete(new Path(out), true);
		}

		// 第一个作业的配置
		Job unSortjob = getJob(conf, "Reduce Side Join DependingJob Testing ------ unSortjob", ReducerSideJoinDriver.class,
				ReducerSideJoinMapper.class, Text.class, Text.class, ReducerSideJoinReducer.class, Text.class,
				NullWritable.class, 1, in, tempOut);
	
		// 将普通作业包装成受控作业
		ControlledJob unSortControlledJob = new ControlledJob(conf);
		unSortControlledJob.setJob(unSortjob);

		// 第二个作业的配置
		Job sortedjob = getJob(conf, "Reduce Side Join DependingJob Testing ------ sortedjob", ReduceSideSortDriver.class,
				ReduceSideSortMapper.class, Text.class, Text.class, ReduceSideSortReducer.class, Text.class,
				NullWritable.class, 1, tempOut, out);

		ControlledJob sortedControlledJob = new ControlledJob(conf);
		sortedControlledJob.setJob(sortedjob);

		// 设置job的依赖关系
		sortedControlledJob.addDependingJob(unSortControlledJob);

		// 主控制容器
		JobControl jobControl = new JobControl("jobControl");
		// 添加到总的JobControl里，进行控制
		jobControl.addJob(unSortControlledJob);
		jobControl.addJob(sortedControlledJob);

		// 在线程启动
		Thread t = new Thread(jobControl);
		t.start();
		while (true) {
			if (jobControl.allFinished()) {
				System.out.println("jobControl" + jobControl.getSuccessfulJobList());
				jobControl.stop();
				break;
			}

		}

	}

	/**
	 * 
	 * @param conf
	 * @param jobName
	 * @param cls
	 * @param clsMapper
	 * @param clsMapOutKey
	 * @param clsMapOutValue
	 * @param clsReducer
	 * @param clsReducerOutKey
	 * @param clsReducerOutValue
	 * @param tasks
	 * @return
	 * @throws Exception
	 */
	static Job getJob(Configuration conf, String jobName, Class<?> cls, Class<? extends Mapper> clsMapper,
			Class<?> clsMapOutKey, Class<?> clsMapOutValue, Class<? extends Reducer> clsReducer,
			Class<?> clsReducerOutKey, Class<?> clsReducerOutValue, int tasks, String in, String out) throws Exception {
		Job job = Job.getInstance(conf, jobName);
		// 设置作业驱动类
		job.setJarByClass(cls);
		// 设置mapper相关信息
		job.setMapperClass(clsMapper);
		job.setMapOutputKeyClass(clsMapOutKey);
		job.setMapOutputValueClass(clsMapOutValue);

		// 设置reducer相关信息
		job.setReducerClass(clsReducer);
		job.setOutputKeyClass(clsReducerOutKey);
		job.setOutputValueClass(clsReducerOutValue);

		job.setNumReduceTasks(tasks);

		// 设置输入的文件的路径
		FileInputFormat.setInputPaths(job, new Path(in));
		FileSystem fs = FileSystem.get(conf);
		if (fs.exists(new Path(out))) {
			fs.delete(new Path(out), true);
		}
		FileOutputFormat.setOutputPath(job, new Path(out));

		return job;
	}

}

2、验证

运行日志

jobControl[job name:	Reduce Side Join DependingJob Testing ------ unSortjob
job id:	jobControl0
job state:	SUCCESS
job mapred id:	job_local1023947416_0001
job message:	just initialized
job has no depending job:	
, job name:	Reduce Side Join DependingJob Testing ------ sortedjob
job id:	jobControl1
job state:	SUCCESS
job mapred id:	job_local1967863010_0002
job message:	just initialized
job has 1 dependeng jobs:
	 depending job 0:	Reduce Side Join DependingJob Testing ------ unSortjob
]

实际的功能与本示例中对应的链接示例结果一致，不再赘述。
至此，MapReduce的工作流示例介绍结束。

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

20、MapReduce 工作流介绍

20、MapReduce 工作流介绍

一、MapReduce 工作流介绍

二、使用示例

1、实现

2、验证

相关文章

Selenium Webdriver 3.X源码分析之核心代码common

启动hadoop集群时报错ERROR: Attempting to operate on hdfs namenode as root

Python测试开发初稿

【配置/认证】Authentication for Hadoop（3.3.1） HTTP web-consoles : Hadoop的simple认证 不是银弹

【基础-配置文件】：hadoop配置文件作用概述ing

有一批气象观测站，现需要获取这些站点的观测数据，并存储到 Hive 中。但是气象局只提供了 api 查询，每次只能查询单个观测点。那么如果能够方便快速地获取到所有的观测点的数据？

推箱子自动求解。

手写归并排序

已知两个非负数的异或值为M，两数之和为N，求这两个数？

1到100万以内，如何打印99万个不重复的随机数？

作者介绍

最新文章

手写归并排序

1到100万以内，如何打印99万个不重复的随机数？

sqoop 的安装与常用抽数操作

给定一个无序数组，里面数都是成双数的，只有一个数是成单数的，求这个数？

给定一个无序数组，里面数都是成双数的，只有一个数是成单数的，求这个数？

【JAVA】-- 验证码的实现

热门文章

java163-同步方法锁

58如何调出eclipse左边文件栏

java156-序列化

java162-同步对象锁

大数据Spark “蘑菇云”行动第93课：Hive中的内置函数、UDF、UDAF实战

大数据Spark “蘑菇云”行动第94课：Hive性能调优之Mapper和Reducer设置、队列设置和并行执行、JVM重用和动态分区、Join调优

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

大数据Spark “蘑菇云”行动第93课：Hive中的内置函数、UDF、UDAF实战

截止今天学习大数据技术的笔记

python selenium - 利用excel实现参数化

java139-多个catch块

pandas高级处理-数据离散化

从0开始建设大数据平台

【配置/认证】Authentication for Hadoop（3.3.1） HTTP web-consoles : Hadoop的simple认证不是银弹