Hadoop第三天学习记录-天翼云

Hadoop第三天学习记录

2024-12-23 09:17:33 阅读次数：16

经过三天的Hadoop学习，我对这个分布式存储和处理框架有了更深入的了解。在这个阶段，我主要学习了Hadoop的核心组件和运行机制，以及如何在实际环境中进行部署和配置。

首先，我深入研究了Hadoop的核心组件，包括HDFS、MapReduce和YARN。HDFS是Hadoop分布式文件系统，它允许在多台计算机上存储和处理大规模的数据集。MapReduce是Hadoop中的一种编程模型，它允许用户编写Map和Reduce函数来处理和分析HDFS上的数据。YARN是Hadoop中的资源管理系统，它负责分配和管理计算资源，以便MapReduce和其他应用程序能够有效地运行。

接下来，我学习了Hadoop的安装和配置。在安装过程中，我了解了Hadoop的依赖关系和配置文件的重要性。我还学习了如何配置HDFS和YARN，以及如何将数据存储在HDFS上。

最后，我学习了Hadoop的优化和调试。在这个阶段，我了解了如何调整Hadoop的配置参数以提高性能和效率。我还学习了如何诊断和解决常见的问题，例如数据丢失和内存不足。

在这个阶段的学习中，我不仅了解了Hadoop的理论知识，还学习了如何使用Hadoop进行实际操作。我编写了MapReduce程序来处理和分析数据集，并使用HDFS进行数据存储。我还学习了如何调整Hadoop的配置参数来优化性能和效率。

以下是一个简单的MapReduce程序的示例代码，用于计算单词的出现次数：

java复制代码
 import java.io.IOException;  
 
 import org.apache.hadoop.io.IntWritable;  
 
 import org.apache.hadoop.io.LongWritable;  
 
 import org.apache.hadoop.io.Text;  
 
 import org.apache.hadoop.mapreduce.Mapper;  
 
 import org.apache.hadoop.mapreduce.Reducer;  
 
 import org.apache.hadoop.mapreduce.Job;  
 
 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;  
 
 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;  
 
 import org.apache.hadoop.fs.Path;  
 
   
 
 public class WordCount {  
 
   public static class Mapper extends Mapper<LongWritable, Text, Text, IntWritable> {  
 
     private final static IntWritable one = new IntWritable(1);  
 
     private Text word = new Text();  
 
     public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {  
 
       String[] words = value.toString().split(" ");  
 
       for (String str : words) {  
 
         word.set(str);  
 
         context.write(word, one);  
 
       }  
 
     }  
 
   }  
 
   public static class Reducer extends Reducer<Text, IntWritable, Text, IntWritable> {  
 
     public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {  
 
       int sum = 0;  
 
       for (IntWritable val : values) {  
 
         sum += val.get();  
 
       }  
 
       context.write(key, new IntWritable(sum));  
 
     }  
 
   }  
 
   public static void main(String[] args) throws Exception {  
 
     Job job = Job.getInstance();  
 
     job.setJarByClass(WordCount.class);  
 
     job.setJobName("Word Count");  
 
     FileInputFormat.addInputPath(job, new Path(args[0]));  
 
     FileOutputFormat.setOutputPath(job, new Path(args[1]));  
 
     System.exit(job.waitForCompletion(true) ? 0 : 1);  
 
   }  
 
 }

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

Hadoop第三天学习记录

Hadoop第三天学习记录

相关文章

【强化学习】强化学习的基本概念与应用

YARN与HBase任务

Java 代码本地设置Hadoop用户名密码

AIGC的底层技术：底层逻辑代码分析与原理实现

全局变量_基本操作

shell基础_shell简介

变量基础_变量场景

编程语言逻辑

shell基础_开发规范解读

全局变量_嵌套shell

作者介绍

最新文章

数据结构与算法学习路径

Hadoop学习记录-HDFS（分布式文件系统）的工作原理和最佳实践

Oracle数据库学习入门教程

NoSQL学习第三天：掌握关键技术与实战应用

DBeaver学习笔记 -DBeaver的基础操作

DBeaver学习笔记 - 高级查询功能

热门文章

第1章 Hive基本概念

oracle学习5-表空间的作用

给新手学习MySQL的建议

Hadoop学习记录-HDFS（分布式文件系统）的工作原理和最佳实践

DBeaver学习笔记 - 高级查询功能

Oracle数据库学习入门教程

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

DBeaver学习笔记 -DBeaver的基础操作

Oracle数据库学习入门教程

Hadoop学习记录-HDFS（分布式文件系统）的工作原理和最佳实践

第1章 Hive基本概念

DBeaver学习笔记 - 高级查询功能

oracle学习5-表空间的作用