Hadoop

java环境安装

hadoop上传、解压

环境变量配置

JAVA_HOME=/usr/local/java/jdk1.8.0_161
CLASSPATH=$JAVA_HOME/lib/
PATH=$PATH:$JAVA_HOME/bin

export PATH JAVA_HOME CLASSPATH

export HADOOP_HOME=/hadoop/hadoop-3.3.6
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

修改配置文件

core-site.xml

/hadoop/hadoop-3.3.6/etc/hadoop/core-site.xml

<configuration>
<!--配置文件系统和端口，但不是web端直接访问端口-->
 <property>
  <name>fs.defaultFS</name>
  <value>hdfs://192.168.70.9:9000</value>
 </property>
<!--临时文件夹，会创建在对应本地目录-->
 <property>
  <name>hadoop.tmp.dir</name>
  <value>/hadoop/data/tmp</value>
 </property>
<!--流文件的缓冲区大小-->
 <property>
  <name>io.file.buffer.size</name>
  <value>131072</value>
 </property>

</configuration>

hadoop-env.sh

/hadoop/hadoop-3.3.6/etc/hadoop/hadoop-env.sh

export JAVA_HOME=/usr/local/java/jdk1.8.0_161

hdfs-site.xml

/hadoop/hadoop-3.3.6/etc/hadoop/hdfs-site.xml

<configuration>
<!--副本数量-->
 <property>
  <name>dfs.replication</name>
  <value>1</value>
 </property>
</configuration>

启动

第一次初始化

hdfs namenode -format

打印：format success，出现shutting down xxxx不影响。

hadoop-daemon.sh start namenode

use of this script to start hdfs daemons is deprecated

启动namenode 和 datanode

hdfs --daemon start namenode
hdfs --daemon start datanode

报错：Cannot set priority of namenode process 3304

根据日志路经检查：Invalid URI for NameNode address (check fs.defaultFS): file:/// has no authority.

发现配置文件core-site.xml中defaultFS 单词写错，修改后启动成功。

浏览器访问

访问：192.168.70.9:9000

It looks like you are making an HTTP request to a Hadoop IPC port. This is not the correct port for the web interface on this daemon.

访问：http://192.168.70.9:9870/

特别注意：HaDoop3.0之前web访问端口是50070 hadoop3.0之后web访问端口为9870

服务器信息

上传文件

[root@localhost sbin]# hdfs dfs -mkdir -p /hadoop/input
[root@localhost sbin]# hdfs dfs -ls /hadoop
Found 1 items
drwxr-xr-x   - root supergroup          0 2023-08-18 17:57 /hadoop/input
[root@localhost sbin]# hdfs dfs -put wc.txt  /hadoop/input/

执行统计单词数样例

[root@localhost sbin]# hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount /hadoop/input /hadoop/output
...
[root@localhost hadoop-3.3.6]# hdfs dfs -ls /hadoop/output/
Found 2 items
-rw-r--r--   1 root supergroup          0 2023-08-18 18:08 /hadoop/output/_SUCCESS
-rw-r--r--   1 root supergroup         27 2023-08-18 18:08 /hadoop/output/part-r-00000

查看统计结果

[root@localhost hadoop-3.3.6]# hdfs dfs -cat /hadoop/output/*
cao     1
chen    1
chenhe  2
he      3

停止datanode 和 namenode

[root@localhost hadoop-3.3.6]# hdfs --daemon stop datanode
[root@localhost hadoop-3.3.6]# hdfs --daemon stop namenode
[root@localhost hadoop-3.3.6]# jps
9391 Jps

HDFS的优缺点

优点

高容错，多副本、自动恢复
数据、文件规模大
流式数据访问
可构建在廉价的机器上

缺点

不适合低时延的数据访问。
大量小文件处理效率不高。会大量占用目录、块信息；查找时间会超过读取文件内容的时间；
不支持并发写。一个文件只能有一个写，不支持多线程写；仅支持数据追加；

基础命令

hadoop fs 老版命令

hdfs dfs 新版命令

-ls 查看目录

-cat 查看文件

-put 上传文件

-get 下载文件

-mv 移动文件

-rm 删除文件（有回收站）

-cp 复制文件

-appendToFile 文件追加内容

-chmod 修改权限

-chown 修改所属

存储

设置副本

多备份存储保障高可用、容错；

hdfs-site.xml中配置副本数量，默认数量 3，修改后需要同步修改每一台服务器的配置文件并重启。

<property>
<name>dfs.replication</name>
<value>3</value>
</property>

也可以在上传文件时，指定副本数，但是对已存在hdfs的文件无效

hadoop fs -D dfs.replication=2 -put test.txt /tmp/

对于已存在hdfs的文件，也可修改副本数量

hadoop fs -setrep [-R] 2 path
指定 path 的内容将会被修改为 2 个副本存储。
-R 选项可选，使用 -R 表示对子目录也生效。

fsck命令

file system check:用于检查文件的副本数量

hdfs fsck path [-files [-blocks [-locations]]]
fsck 可以检查指定路径是否正常
• -files 可以列出路径内的文件状态
• -files -blocks 输出文件块报告（有几个块，默认一个块256M，多少副本）
• -files -blocks -locations 输出每一个 block 的详情，存储在哪个节点等待

管理

NameNode 基于一批 edits 和一个 fsimage 文件的配合完成整个文件系统的管理和维护。

edits记录每次文件操作信息（增删改），有大小限制，达到阈值后会生成新的，类似于流水账信息；

fsimage整合所有edits信息，保存最后文件存储信息，用于后续文件的查询使用，类似总账信息。fsimage由SeconNameNode进行整合

# 默认定时、按照事务次数进行整合
dfs.namenode.checkpoint.period ，默认 3600 （秒）即 1 小时
dfs.namenode.checkpoint.txns ，默认 1000000 ，即 100W 次事务
# 可设置检查间隔，检查时间、事务次数是否达到阈值
dfs.namenode.checkpoint.check.period ，默认 60 （秒），来决定

数据读写

NameNode不处理数据的写入，只负责权限审批和操作记录，分配写入节点（计算寻路最近的节点）。

客户端直接向DataNode1写入数据，再由DataNode1向DataNode2复制数据，2复制给3。。。完成后客户端在通知NameNode做元数据记录工作。

MapReduce

概述

核心思想

MapReduce程序运行一半分为两个阶段：Map阶段和Reduce阶段。

Map阶段并发Map task，完全并行，互不相干；

Reduce阶段并发Reduce task，互不相干，但是依赖于上一步map的输出结果；

如果逻辑复杂，就需要多个MapReduce串行。

优点

编写分布式程序，可以分布到大量廉价机器上，可以通过增加机器数量来扩展计算能力；

如果一个机器挂掉了，hadoop会自动将该机器上的计算任务转移到其他机器上，不需要人工参与；

离线处理，适合大量数据计算。

缺点

不适合做实时计算；

输入的数据是静态的，不适合做流式计算；

不适合做有向图的计算（下一次计算依赖于上一次的计算结果）；如果做这样的，其前一次的计算结果要写入磁盘，大量io，降低性能；

进程

一个完整的MapReduce程序运行时有三类实例进程：

MrAppMaster：负责整个程序的过程调度和状态监控协调；
Map task：负责map阶段数据计算处理；
Reduce task：负责Reduce阶段数据计算处理；

YARN

架构

主要角色

ResouManager：整个集群的资源调度者，负责协调调度各个程序所需的资源。
- NodeManager：单个服务器的资源调度者，负责调度单个服务器上的资源提供给应用程序使用。

NodeManager上分配的资源叫容器，应用程序运行在此容器中，不能突破上限。

辅助角色

代理服务器 (ProxyServer) ： Web Application Proxy Web 应用程序代理。提高YARN在开放网络中的安全性。提供WEB UI查看。
历史服务器 (JobHistoryServer) ：应用程序历史信息记录服务。收集所有容器运行日志，聚合到HDFS，提供WEB UI查看。

Hive

操作语法

数据库操作

创建

指定hdfs存储位置，使用location指定

本质上是保存在hdfs上的一个以.db结尾的文件，默认存储在/user/hive/warehouse（hive.metastore.warehouse.dir）

create databases [if not exists] myhive [localtion '/myhive'] ;

删除

空数据库，如果有数据会报错

drop database myhive;

强制删除

drop database myhive cascade;

数据表操作

建表

内部表

无EXTERNAL修饰；

不可指定保存位置，根据hive.metastore.warehouse.dir指定地址（默认/user/hive/warehouse）；

删除时会直接删除元数据和存储的内容，不适合与其他表共享数据；

外部表

有EXTERNAL修饰；create external table ...

可存储在任意位置，通过localtion指定，因为不为hive内部管理，可以随意链接到外部数据上；做临时关联使用；

删除的时候仅仅删除的时元数据（表信息）；

表和数据相互独立，表名可以和存储数据的文件名不一致；

先创建表，再移动数据到指定的目录下；
先创建对应hadoop目录，上传对应数据文件，再根据目录和内容创建表；

自定义分隔符

默认分隔符为ASCII编码字符\001，在linux，cat查看不到，但可以使用vim看到

create table stu(id int,name string ) row format delimited fields terminated by '\t'

内外部表转换

查看表信息

desc formatted table_name;

table_type属性为：MANAGED TABLE代表内部表

# 括号内属性必须要大写
alter table table_name set tblproperties('EXTERNAL'='TRUE'); 
alter table table_name set tblproperties('EXTERNAL'='FALSE');

数据加载

加载文件数据

LOAD DATA [LOCAL] INPATH 'FILENAME' [OVERWRITE] INTO TABLE TABLE_NAME;
# [LOCAL] 代表加载的文件在Linux文件系统
# [OVERWRITE] 是否覆盖

加载linux文件系统数据后，文件不会消失；

加载hdfs系统文件后，文件本质上是移动到表的hdfs路径；

加载其他表数据

此方式走mapreduce，速度比较慢；

INSERT OVERERITE/INTO TABLE TABLE_NAME1 SELECT * FROM TABLE_NAME2;

数据导出

也是走mapreduce，默认导出分隔符为ASCII编码的；

INSERT OVERWRITE [LOCAL]  directory 'path' [row format delimited fields terminated by '\t'] select * from table_name ;

也可以通过hive shell导出

bin/hive -e "select * from table-name" > /test/export.txt

bin/hive -f export.sql > /test/export.txt # export.sql 中保存要执行的sql语句

分区表

CREATE TABLE TABLE_NAME(ID INT,NAME STRING) PARTITONED BY (MONTH STRING )
row format delimited fields terminated by '\t';

LOAD DATA [LOCAL] INPATH 'FILENAME' [OVERWRITE] INTO TABLE TABLE_NAME PARTITION(MONTH='202309')
# 会自动为表添加一列：MONTH
# 会自动在hdfs中表的文件路径下创建文件夹MONTH=202309，下保存数据，多级分区会创建多级目录保存数据；
# 如果创建表的时候指定多几分区，那么加载数据时，也要指定多级的分区配置，一一对应，不能少，也不能多；

可以包分区字段作为条件查询

select  * from table_name where month = '202309';

526互联

Hadoop学习

Hadoop

java环境安装

hadoop上传、解压

修改配置文件

core-site.xml

hadoop-env.sh

hdfs-site.xml

启动

第一次初始化

启动namenode 和 datanode

浏览器访问

上传文件

执行统计单词数样例

查看统计结果

停止datanode 和 namenode

HDFS的优缺点

优点

缺点

基础命令

存储

设置副本

fsck命令

管理

数据读写

MapReduce

概述

核心思想

优点

缺点

进程

YARN

架构

主要角色

辅助角色

Hive

操作语法

数据库操作

创建

删除

数据表操作

建表

内部表

外部表

自定义分隔符

内外部表转换

数据加载

加载文件数据

加载其他表数据

数据导出

分区表