hadoop3 hadoop hive3 hive

Hadoop-3.3.5单节点开启Kerberos认证

1、Hadoop单节点部署 部署过程看官方文档即可 https://hadoop.apache.org/ 为增加执行命令的便利性,添加hadoop的环境变量: vim /etc/profile.d/hadoop.sh export HADOOP_HOME=/usr/local/hadoop-3.3. ......
节点 Kerberos Hadoop

Hadoop - HDFS 概述

什么是HDFS HDFS的优缺点 HDFS的文件块大小 HDFS的写数据流程 HDFS的副本配置策略 HDFS读数据的流程 什么是HDFS HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器 ......
Hadoop HDFS

hive - beeline命令行可以使用的命令

beeline> !help !all Execute the specified SQL against all the current connections !autocommit Set autocommit mode on or off !batch Start or execute a ......
命令 beeline hive

flink安装(无hadoop)

下载Flink:访问Flink的官方网站(https://flink.apache.org/),在下载页面找到适合你操作系统的预编译二进制包。选择与你的操作系统和版本相对应的下载链接,点击下载。 解压二进制包:下载完成后,将二进制包解压到你想要安装Flink的目录中。你可以使用命令行工具(如tar命 ......
hadoop flink

hadoop 生态环境

HDFS角色及概念 hadoop体系中数据存储管理的基础,是一个高度蓉错的系统,用于在低成本的通用硬件上运行 角色和概念 — Client — NameNode — Secondarynode — Datanode NameNode — Master节点,管理HDFS的(名称空间和数据块映射信息)就 ......
生态环境 生态 环境 hadoop

Hive扩展内容

### 一个SQL语句的分析 ```sql SELECT a.Key, SUM(a.Cnt) AS Cnt FROM ( SELECT Key, COUNT(*) AS Cnt FROM TableName GROUP BY Key, CASE WHEN Key = 'KEY001' THEN Ha ......
内容 Hive

Hive高级函数实战

### 函数的基本操作 和mysql一样的,hive也是一个主要做统计的工具,所以为了满足各种各样的统计需要,它也内置了相当多的函数 ```sql show functions; # 查看所有内置函数 desc function functionName; # 查看指定函数的描述信息 desc fu ......
函数 实战 Hive

【博学谷学习记录】超强总结,用心分享 | Hadoop

【博学谷IT技术支持】 # 一、介绍 ## 概念 [Apache™ Hadoop®](https://hadoop.apache.org/) 项目为可靠、可扩展的分布式计算开发开源软件。允许简单的编程模型在大量计算机集群上对大型数据集群进行分布式处理。 项目包含以下模块: - `Common`: 支 ......
Hadoop

【博学谷学习记录】超强总结,用心分享 | hive

【博学谷IT技术支持】 # 一、介绍 `hive`是基于`hadoop`的数据仓库工具,用来进行数据的提取、转化、加载,是一种可以存储、查询和分析存储在`hadoop`中的大规模数据机制。`hive`将结构化的数据文件映射为一张数据库表,并提供`SQL`查询功能,将SQL语句变成`MapReduce ......
hive

博学谷学习记录】超强总结,用心分享 | hive的内置函数

【博学谷IT技术支持】 # 操作 ## 内置函数 ### 数学函数 - 取整函数round ``` -- 取整函数 第一个为值,第二个为保留几位小数,取证规则四舍五入 select round(2.2222); -- 2 select round(2.5); 3 select round(2.555 ......
函数 hive

【博学谷学习记录】超强总结,用心分享 | hive 查询、分组、join

【博学谷IT技术支持】 ## 查询 ### 常用函数 - 常用函数 ``` 常用函数 -- 求总行数(count) select count(1) from score; -- 36 -- 求分数的最大值(max) select max(sscore) from score; 99 -- 求分数的最 ......
hive join

【博学谷学习记录】超强总结,用心分享 | hadoop的组成

【博学谷IT技术支持】 公众号: 积雷山摩云洞,欢迎关注!!! # hadoop的构成 hadoop集群主要包含:HDFS集群、MapReduce、YARN集群。HDFS集群复制海量数据的存储,MapReduce负责海量计算,Yarn集群存在数据运算时的资源调度。 - hdfs集群主要包含了角色na ......
hadoop

【博学谷学习记录】超强总结,用心分享 | hive 日期函数与条件函数

【博学谷IT技术支持】 公众号: 积雷山摩云洞,欢迎关注!!! # 操作 ## 日期函数 - 获取当前时间 ``` -- 获取当前时间 -- 获取年月日 select `current_date`(); -- 2022-10-30 -- 获取年月日时分秒 select `current_timest ......
函数 条件 日期 hive

【博学谷学习记录】超强总结,用心分享 | hive分区与分桶的区别

【博学谷IT技术支持】 公众号: 积雷山摩云洞,欢迎关注!!! # 概念 - 分区表: 将数据分散到多个子目录中,在执行查询是,可以根据条件加快查询效率 - 分桶表:是相对分区更细的颗粒度划分,分桶表是将表查分到不同的文件中,根据数据表某列的hash值进行分区,对某列数据分区就是对该列属性值的has ......
hive

大数据面试题集锦-Hadoop面试题(二)-HDFS

> 你准备好面试了吗?这里有一些面试中可能会问到的问题以及相对应的答案。如果你需要更多的面试经验和面试题,关注一下"张飞的猪大数据分享"吧,公众号会不定时的分享相关的知识和资料。 [TOC] ## 1、 HDFS 中的 block 默认保存几份? 默认保存3份 ## 2、HDFS 默认 BlockS ......
试题集锦 集锦 试题 数据 Hadoop

Hive核心实战

### Hive中数据库的操作 ```sql show databases; # 查看数据库列表 use default; # 选择数据库 create database mydb1; # 创建数据库 create database mydb2 location '/user/hive/mydb2' ......
实战 核心 Hive

Hive中的表类型

在Mysql中没有表类型这个概念,因为它就只有一种表。但是Hive中是有多种表类型的,我们可以分为四种,内部表、外部表、分区表、桶表 下面来一个一个学习一下这些类型的表 ### 内部表 内部表也可以称为受控表,它是Hive中的默认表类型,表数据默认存储在 warehouse 目录中。 在加载数据的过 ......
类型 Hive

Windows 配置 Hadoop and Spark

一 JDK环境配置 由于项目用的JDK17,所以单独给Hadoop配了JDK11,建议直接配置JAVA_HOME环境变量为JDK11,因为后面Spark需要用到JAVA_HOME 下载JDK11 链接:https://www.oracle.com/java/technologies/javase/j ......
Windows Hadoop Spark and

Hive基础使用

### Hive的使用方式 可以在Shell命令行下操作Hive,或者使用JDBC代码的方式操作 ### 命令行方式 针对命令行这种方式,其实还有两种使用 - 第一个是使用bin目录下的hive命令,这个是从hive一开始就支持的使用方式 - 后来又出现一个beeline命令,它是通过HiveSer ......
基础 Hive

Hive - 言出法随

-- 显示当前数据库 select current_database(); -- 设置hive属性在命令行显示当前数据库 set hive.cli.print.current.db=true; ......
言出法随 Hive

关于Hadoop集群无法正常关闭的问题

### 原生命令 正常情况我们是通过以下命令来停止和开启集群的 ```sh sbin/stop-all.sh sbin/start-all.sh ``` 但有时候不生效,通过ps还能查看到,但jps命令查看不到 ### 自定义停止命令 ```sh #!/bin/bash # 停止hadoop进程 h ......
集群 Hadoop 问题

Hive详解

### 什么是Hive Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载,可以简称为ETL。 Hive 定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户直接查询Hadoop中的数据,同时,这个语言也允许熟悉MapReduce的开发者 ......
Hive

Hadoop之YARN详解

### YARN的由来 从Hadoop2开始,官方把资源管理单独剥离出来,主要是为了考虑后期作为一个公共的资源管理平台,任何满足规则的计算引擎都可以在它上面执行。所以YARN可以实现HADOOP集群的资源共享,不仅仅可以跑MapRedcue,还可以跑Spark、Flink。 ### YARN架构分析 ......
Hadoop YARN

Hadoop - hadoop介绍

Hadoop是什么 Hadoop的发展历史 Hadoop的优势 Hadoop是什么 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决海量数据的存储和海量数据的分析计算问题。广义上讲,Hadoop通常是指一个更广泛的概念 —— Hadoop生态圈。 Hadoop的发展历史 L ......
Hadoop hadoop

hadoop3.x-ec

一、EC原理 二、常用命令与对应解释 1.查看当前支持的EC策略 hdfs ec -listPolicies 2023-05-30 10:10:43,251 WARN util.NativeCodeLoader: Unable to load native-hadoop library for yo ......
hadoop3 hadoop x-ec ec

Hadoop之MapReduce性能优化

现在大家已经掌握了MapReduce程序的开发步骤,注意了,针对MapReduce的案例我们并没有讲太多,主要是因为在实际工作中真正需要我们去写MapReduce代码的场景已经是凤毛麟角了,因为后面我们会学习一个大数据框架Hive,Hive支持SQL,这个Hive底层会把SQL转化为MapReduc ......
MapReduce 性能 Hadoop

Hadoop之MapReduce详解

### 前言 前面我们学习了Hadoop中的HDFS,HDFS主要是负责存储海量数据的,如果只是把数据存储起来,除了浪费磁盘空间,是没有任何意义的,我们把数据存储起来之后是希望能从这些海量数据中分析出来一些有价值的内容,这个时候就需要有一个比较厉害的计算框架,来快速计算这一批海量数据,所以MapRe ......
MapReduce Hadoop

hadoop安装使用

# hadoop相关介绍 ## 1.什么是hadoop? Hadoop是一个开源的分布式计算框架,它可以让我们在大规模集群中存储和处理海量数据。Hadoop基于Google的MapReduce和Google文件系统(GFS)的思想而设计。它的目标是能够在成百上千台普通计算机上并行处理大数据,提供高可 ......
hadoop

hadoop序列化相关问题

**什么时候需要使用序列化?** *需要在不同服务器传递内存数据时,用序列化。* **序列化后的所有属性需要再反序列化,那么有先后顺序反序列化吗?** *有的,比如序列化的属性有a b c* *则反序列化的属性必须是 ca b c* **数据切片一般为数据块的倍数,为什么?** *一般一个数据切片对 ......
序列 hadoop 问题

Hive的分区、分桶

Hive的分区表、分桶表 一、 Hive库的分区表 1.1概述 Hive 中的表对应为 HDFS 上的指定目录,在查询数据时候,默认会对全表进行扫描,这样时间和性能的消耗都非常大。 分区为 HDFS 上表目录的子目录,数据按照分区存储在子目录中。如果查询的 where 字句的中包含分区条件,则直接从 ......
Hive