华为云耀云服务器L实例-大数据学习-MapReduce&Yarn的实操-526互联

华为云耀云服务器L实例-大数据学习-MapReduce&Yarn的实操

产品官网：https://www.huaweicloud.com/product/hecs-light.html

今天我们采用可靠更安全、智能不卡顿、价优随心用、上手更简单、管理特省心的华为云耀云服务器L实例为例，继续介绍MapReduce和YARN的实操。

MapReduce 和 YARN（Yet Another Resource Negotiator）是Apache Hadoop生态系统的两个关键组件，用于支持大规模分布式计算。以下是对它们的简单介绍：

MapReduce:

● 定义： MapReduce 是一种编程模型，用于处理和生成大规模数据集。它分为两个主要阶段：Map 阶段和 Reduce 阶段。

● Map 阶段：输入数据被分割成小块，每个块由一个 Mapper 处理。Mapper 生成中间键值对（key-value pairs）作为输出，其中 key 用于分组相关的数据。

● Shuffle and Sort 阶段：中间数据被传送到 Reduce 阶段，经过分区、排序和分组，确保具有相同 key 的数据被传递到相同的 Reduce 任务。

● Reduce 阶段： Reduce 任务处理中间数据，最终生成最终的输出。

● 应用： MapReduce 可以用于处理大规模的数据，例如在分布式存储系统（如Hadoop分布式文件系统）中运行。

YARN (Yet Another Resource Negotiator):

● 定义： YARN 是Hadoop的资源管理器，负责集群中的资源分配和作业调度。它扩展了Hadoop的能力，使得不仅可以运行MapReduce作业，还可以运行其他类型的分布式应用程序。

● 角色：

ResourceManager：主要负责集群资源的分配和调度。

NodeManager：在集群中的每个节点上运行，负责管理节点上的资源，接受来自 ResourceManager 的指令并执行相应的任务。

● 应用： YARN 使得 Hadoop 集群可以同时运行多个应用程序，而不仅仅是 MapReduce 作业。这使得 Hadoop 集群更加通用，可以支持多种不同类型的工作负载。

总体而言，MapReduce 和 YARN 是 Hadoop 的核心组件，它们使得处理和分析大规模数据变得更加容易和可扩展。

以下是在华为云耀云服务器L实例实操MapReduce 和 YARN步骤。请确保已经按照前文教程在服务器上配置好。

在部署并成功启动YARN集群后，我们就可以在YARN上运行各类应用程序了。

YARN作为资源调度管控框架，其本身提供资源供许多程序运行，常见的有：

MapReduce程序

Spark程序

Flink程序

（1）创建words.txt文件

```bash

hadoop hdfs hadoop hdfs

hadoop mapreduce hadoop yarn

hadoop itcast hadoop

hadoop yarn mapreduce

```

(2) 内容保存到Linux中为words.txt文件，并上传到HDFS

```bash

hadoop fs -mkdir -p /input/wordcount

hadoop fs -mkdir /output

hadoop fs -put words.txt /input/wordcount/

```

(3) 执行如下命令，提交示例MapReduce程序WordCount到YARN中执行

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar wordcount hdfs://node1:8020/input/wordcount/ hdfs://node1:8020/output/wc1

注意：

参数wordcount，表示运行jar包中的单词计数程序（Java Class）

参数1是数据输入路径（hdfs://node1:8020/input/wordcount/)

参数2是结果输出路径(hdfs://node1:8020/output/wc1)，需要确保输出的文件夹不存在

（4）提交交程序后，可以在YARN的WEB UI页面看到运行中的程序（http://node1:8088/cluster/apps)

（5）执行完成后，可以查看HDFS上的输出结果

_SUCCESS文件是标记文件，表示运行成功，本身是空文件

part-r-00000，是结果文件，结果存储在以part开头的文件中

（6）执行完成后，可以借助历史服务器查看到程序的历史运行信息

（7）提交求圆周率示例程序

可以执行如下命令，使用蒙特卡罗算法模拟计算求PI（圆周率）

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar pi 3 1000

参数pi表示要运行的Java类，这里表示运行jar包中的求pi程序

参数3，表示设置几个map任务

参数1000，表示模拟求PI的样本数（越大求的PI越准确，但是速度越慢）

resourcemanager connecting mapreduce yarn-site