2023.7.31-2023.8.6暑假第四周博客-526互联

2023.7.31

一键启动脚本
启动：
$HADOOP_HOME/sbin/start-yarn.sh
• 从 yarn-site.xml 中读取配置，确定 ResourceManager 所在机器，并启动它
• 读取 workers 文件，确定机器，启动全部的 NodeManager
• 在当前机器启动 ProxyServer （代理服务器）
关闭
$HADOOP_HOME/sbin/stop-yarn.sh

单进程启停
除了一键启停外，也可以单独控制进程的启停。
• $HADOOP_HOME/bin/yarn ，此程序也可以用以单独控制所在机器的进程的启停
用法： yarn --daemon (start|stop) (resourcemanager|nodemanager|proxyserver)
• $HADOOP_HOME/bin/mapred ，此程序也可以用以单独控制所在机器的历史服务器的启停
用法： mapred --daemon (start|stop) historyserver

1. 一键启停脚本可用
• $HADOOP_HOME/sbin/start-yarn.sh
• $HADOOP_HOME/sbin/stop-yarn.sh
2. 独立进程启停可用
• $HADOOP_HOME/bin/yarn --daemon
控制 resourcemanager 、 nodemanager 、 proxyserver
• $HADOOP_HOME/bin/mapred --daemon
控制 historyserver

2023.8.1

今天联系了提交MapReduce任务到YARN运行

运行了统计文件单词数的应用程序，成功输出了结果，另外计算了圆周率

2023.8.2

对数据进行统计分析， SQL 是目前最为方便的编程工具。
大数据体系中充斥着非常多的统计分析场景
所以，使用 SQL 去处理数据，在大数据中也是有极大的需求
的。

MapReduce 支持程序开发（ Java 、 Python
等）
但不支持 SQL 开发

布式 SQL 计算 - Hive
Apache Hive 是一款分布式 SQL 计算的工具，其主要功能是：
• 将 SQL 语句翻译成 MapReduce 程序运行
基于 Hive 为用户提供了分布式 SQL 计算的能力
写的是 SQL 、执行的是 MapReduce

2023.8.3

如果让您设计 Hive 这款软件，要求能够实现
• 用户只编写 sql 语句
• Hive 自动将 sql 转换 MapReduce 程序并提交运行
• 处理位于 HDFS 上的结构化数据。
如何实现？

假设要执行： SELECT city, COUNT(*) FROM t_user GROUP BY city;

元数据管理
针对 SQL ： SELECT city, COUNT(*) FROM t_user GROUP BY city;
若翻译成 MapReduce 程序，有如下问题：
• 数据文件在哪里？
• 使用什么符号作为列的分隔符？
• 哪些列可以作为 city 使用？
• city 列是什么类型的数据？