hadoop hbase hive

Hive--对表数据进行采样操作

......

数据 Hive更新时间 2023-08-10

hadoop的相关启动

# 1、先退回到hadoop主路径（也就是我上一篇中的hadoop-3.0.0） ``` cd ../.. ``` ![](https://img2023.cnblogs.com/blog/2808014/202308/2808014-20230809214545745-774226168.png) ......

hadoop更新时间 2023-08-09

Linux系统下安装Hadoop环境

# 安装Hadoop的话，是在安装好JDK和MYSQL之后的环境下进行的；还没有安装的话，可以跳转到安装jdk环境（https://www.cnblogs.com/liuzijin/p/17591188.html） # 和安装mysql环境（https://www.cnblogs.com/liuzi ......

环境 Hadoop 系统 Linux更新时间 2023-08-09

Hive之分区表

在大数据中，最常用的一种思想就是分治，我们可以把大的文件切割划分成一个个的小的文件，这样每次操作一个小的文件就会很容易了同样的道理，在hive当中也是支持这种思想的，就是我们可以把大的数据，按照每天，或者每小时进行切分成一个个的小的文件，这样去操作小的文件就会容易得多了。如图，一个典型的按月份分 ......

Hive更新时间 2023-08-09

Hadoop：哪个数据节点是最近的数据节点来检索数据以及节点如何实现容错性

# Q1 who can decide which Data Node is the closest datanode to retrieve the data? 当客户端要读一个文件的某个数据块时，它就需要向NameNode节点询问这个数据块存储在哪些DataNode节点上，这个过程如下图：![i ......

节点数据容错性 Hadoop更新时间 2023-08-08

【Windows】Windows10系统下Hadoop和Hive环境搭建

环境准备软件版本备注 Windows 10 操作系统 JDK 8 暂时不要选用大于等于JDK9的版本，因为启动虚拟机会发生未知异常 MySQL 8.x 用于管理Hive的元数据 Apache Hadoop 3.3.1 - Apache Hive 3.1.2 - Apache Hive src ......

Windows 环境 Hadoop 系统 Hive更新时间 2023-08-08

hive之内部表与外部表

hive之内部表与外部表内部表&外部表定义：未被external修饰的是内部表（managed table），被external修饰的为外部表（external table）；区别：内部表数据由Hive自身管理，外部表数据由HDFS管理；内部表数据存储的位置是hive.metastore.war ......

hive更新时间 2023-08-08

HIve--struct类型

......

类型 struct HIve更新时间 2023-08-08

Hive--map类型

......

类型 Hive map更新时间 2023-08-06

数仓 Hive HA 介绍与实战操作

[TOC] ## 一、概述在数据仓库中，`Hive HA（High Availability）` 是指为 `Apache Hive` 这个数据仓库查询和分析工具提供高可用性的架构和解决方案。Hive是建立在Hadoop生态系统之上的一种数据仓库解决方案，用于处理大规模数据的查询和分析。为了确保Hi ......

实战 Hive HA更新时间 2023-08-06

Hadoop完全分布式集群安装

# Hadoop完全分布式集群安装 >使用版本: hadoop-3.2.0 ## 安装VMware 看一下这张图，图里面表示是三个节点，左边这一个是主节点，右边的两个是从节点，hadoop集群是支持主从架构的。不同节点上面启动的进程默认是不一样的。 ![](https://img2023.cnbl ......

分布式集群 Hadoop更新时间 2023-08-05

Hive Merge详解

说明Hive在2.2版本之后开始支持Merge操作，并且Merge只能在支持ACID的表上执行语法MERGE INTO <target table> AS T USING <source expression/table> AS SON <boolean expression1>WHEN MATC ......

Merge Hive更新时间 2023-08-04

Hive执行过程中出现 ArrayIndexOutOfBoundsException: -128

记一次Hive的运行过程中的错误 `Error: java.lang.RuntimeException: Hive Runtime Error while closing operators at org.apache.hadoop.hive.ql.exec.mr.ExecMapper.close( ......

ArrayIndexOutOfBoundsException 过程 Hive 128更新时间 2023-08-04

hive建表以\t分割,直接put文件到表目录下进行查询

建表语句 ``` CREATE external TABLE `login_number`( serial_number string) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' WITH SERDEP ......

文件目录 hive put更新时间 2023-08-03

FineBI连接hive出现中文乱码问题（已解决）

出现下列情况解决方法： hive 的注释(comment) 中文乱码的解决方法解决后 ......

乱码 FineBI 问题 hive更新时间 2023-08-03

hive同时使用where,group by,having,order by的执行顺序

###hive中分组排序过滤使用顺序。 ``` where,group by,having,order by同时使用，执行顺序为（1）where过滤数据（2）对筛选结果集group by分组（3）对每个分组进行select查询，提取对应的列，有几组就执行几次（4）再进行having筛选每组数 ......

顺序同时 having group where更新时间 2023-08-02

服务器执行hbase shell报错： ipc.AbstractRpcClient: SASL authentication failed. The most likely cause is missing or invalid credentials. Consider 'kinit'.

2023-08-01 21:02:09,923 FATAL [main] ipc.AbstractRpcClient: SASL authentication failed. The most likely cause is missing or invalid credentials. Consi ......

AbstractRpcClient authentication credentials Consider invalid更新时间 2023-08-02

RDBMS与Hbase对比 HDFS与HBase对比 Hive与HBase对比

RDBMS: HBASE： HDFS与HBase对比： Hive与HBase对比： Hive与HBase总结 ......

HBase RDBMS Hbase HDFS Hive更新时间 2023-08-02

Hbase

应用场景：只要有海量数据存储，而且需要快速写入以及快速读取发展历程：特点： ......

Hbase更新时间 2023-08-02

Hive支持的复杂数据类型

......

类型数据 Hive更新时间 2023-08-01

HBase-HBase的特征、优缺点、应用场景

一、Hbase的概念 HBase是Hadoop的生态系统，是建立在Hadoop文件系统（HDFS）之上的分布式、面向列的数据库，通过利用Hadoop的文件系统提供容错能力。如果你需要进行实时读写或者随机访问大规模的数据集的时候，请考虑使用HBase！ HBase作为Google Bigtable的开 ......

HBase 优缺点 HBase-HBase 场景特征更新时间 2023-07-31

HBase-compact的作用、两种实现方式及区别

在hbase中每当有memstore数据flush到磁盘之后，就形成一个storefile，当storeFile的数量达到一定程度后，就需要将 storefile 文件来进行 compaction 操作。Compact 的作用：① 合并文件② 清除过期，多余版本的数据③ 提高读写数据的效率HBase ......

HBase-compact 作用 compact 方式 HBase更新时间 2023-07-31

Hadoop集群相关理解

# Hadoop集群简介 ![](https://img2023.cnblogs.com/blog/2808014/202307/2808014-20230729203431957-501548857.png) # Hadoop集群模式安装 # 安装包获得 ## Hadoop安装包、源码包下载地址： ......

集群 Hadoop更新时间 2023-07-31

Hive 内置函数

Hive 常用的内置函数 --查看内置函数 show functions; --查看函数的用法 describe function extended count; String Functions 字符串函数 select length("itcast");--长度 select reverse(" ......

函数 Hive更新时间 2023-07-31

Hive select查询语句

创建表 CREATE TABLE t_usa_covid19( count_date string, county string, state string, fips int, cases int, deaths int) row format delimited fields terminate ......

语句 select Hive更新时间 2023-07-31

24-Hive优化(下)

# 1. 分组聚合优化 ## 1.1 优化说明 Hive 中未经优化的分组聚合，是通过一个 MapReduce Job 实现的。Map 端负责读取数据，并按照分组字段分区，通过 Shuffle，将数据发往 Reduce 端，各组数据在 Reduce 端完成最终的聚合运算。 Hive 对分组聚合的优化 ......

Hive 24更新时间 2023-07-30

23-Hive优化(上)

# 1. Hive 表设计优化 ## 1.1 分区表 ### a. 基本查询原理 Hive 的设计思想是通过元数据将 HDFS 上的文件映射成表，基本的查询原理是当用户通过 HQL 语句对 Hive 中的表进行复杂数据处理和计算时，默认将其转换为分布式计算 MapReduce 程序对 HDFS 中的 ......

Hive 23更新时间 2023-07-29

22-Hive函数应用

# 1. 多字节分隔符 ## 1.1 问题与需求【**默认规则**】Hive 默认序列化类是 LazySimpleSerDe，其只支持使用单字节分隔符（char）来加载文本数据，例如逗号、制表符、空格等等，默认的分隔符为”\001”。根据不同文件的不同分隔符，我们可以通过在创建表时使用 `row ......

函数 Hive 22更新时间 2023-07-29

21-Hive运算符&函数

# 1. Hive 内置运算符整体上，Hive 支持的运算符可以分为三大类：关系运算、算术运算、逻辑运算。官方参考文档：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 也可以使用下述方式查看运算符的使用方式： ......

运算符函数 Hive amp 21更新时间 2023-07-29

20-Hive-DML&DQL

# 1. Load DATA 回想一下，当在 Hive 中创建好表之后，默认就会在 HDFS 上创建一个与之对应的文件夹，默认路径是由参数 hive.metastore.warehouse.dir 控制，默认值是 /user/hive/warehouse。要想让 Hive 的表和结构化的数据文件产 ......

Hive-DML Hive DML DQL amp更新时间 2023-07-29

共900篇 :17/30页 首页上一页14151617181920下一页尾页