Hive

什么是hive的高级分组聚合,它的用法和注意事项以及性能分析

hive的高级分组聚合是指在聚合时使用GROUPING SETS、CUBE和ROLLUP的分组聚合。 高级分组聚合在很多数据库类SQL中都有出现,并非hive独有,这里只说明hive中的情况。 使用高级分组聚合不仅可以简化SQL语句,而且通常情况下会提升SQL语句的性能。 ## 1.Grouping ......
性能分析 注意事项 事项 性能 hive

Hive3.1.3集群安装

一、安装mysql Hive默认的Derby数据库一次只能打开一个会话,不支持多用户并发访问,需要替换Hive的存储引擎为mysql 1. 下载mysql安装包 wget http://dev.mysql.com/get/mysql57-community-release-el7-7.noarch. ......
集群 Hive3 Hive 1.3

041.hive-hive输出所有表结构

-- hive 输出库中表结构 -- 输出所有表名 hive -e "use xx;show tables;" > tables.txt vim echo_table.sh -- 输出所有表结构 #!/bin/bash echo 'use xx;' >> tablesDDL.sql cat tabl ......
hive hive-hive 结构 041

hive ddl

普通建表 外部表代表会完全接管, 内部表表示删除的时候不会删除HDFS的数据 三种建表语句 第二种把查询语句作为建一个新表, 新表里面就有数据 第三种新建的表里面就没有数据 ......
hive ddl

hive最小化部署 生产部署 hiveserver2 代理对象 和metastore服务

自带的derbe的数据库, 建表后就是在路径下新建了一个文件,映射成表的概念, 同时在yarn会去执行,但是很多数据量很小的操作不会提交到yarn 从stu表读数据的时候 用的inputformat 写数据的时候用的outputformat metastore服务 保存表名和文件路径之间的映射关系 ......
hiveserver2 hiveserver metastore 对象 hive

hive 先生成抽象语法树,在进行逻辑优化,再到屋里计划生成,物理优化,最后再执行

driver 主要的任务是将一条 sql 语句翻译成 物理执行计划,例如 一个map Reduce任务 deiver驱动器, 词法分析 select (token)from (token) 和 语法分析 合并成抽象语法树 语义分析,分解成一个个的查询单元, 类似于子查询 ......
语法 逻辑 物理 hive

高可用Hive

## 上传hive,mysql安装包 **下载安装包请参考这篇文章里面的网址:https://www.cnblogs.com/skyrainmom/p/17438858.html** ## 解压包设置权限 ``` [root@master ~]# tar xf apache-hive-2.0.0-b ......
Hive

Hive扩展之web界面:hwi接口

**HWI是Hive Web Interface的简称,是hive cli的一个web替换方案,以开发的网页形式查看数据** ## 切换用户启动集群 ``` [root@master ~]# su - hadoop Last login: Tue May 2 13:18:34 CST 2023 on ......
界面 接口 Hive web hwi

Docker 安装 Hive

一、安装Docker 以及 配置Docker-compose环境 安装Docker: # 1、切换镜像源 [root@master ~]# wget https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo -O /etc/yu ......
Docker Hive

Hive常见时间日期函数的使用与问题整理

hive本身提供的时间函数已经很丰富了,基本上能满足我们所有的需求,一些特殊需求也可以通过增加一些数学逻辑实现出来。 ......
函数 常见 日期 时间 问题

Hive执行计划之只有map阶段SQL性能分析和解读

这种只含map的操作,如果文件大小控制在合适的情况下,都将只有本地操作,其执行非常高效,运行效率完全不输于在计算引擎Tez和Spark上运行。 ......
性能分析 性能 阶段 只有 Hive

大数据学习笔记hadoop、hive、java

HDFS伪分布式集群搭建 tar -zxvf hadoop-2.7.7.tar.gzecho $JAVA_HOME/root/software/jdk1.8.0_221​#查看loaclhostvim /root/software/hadoop-2.7.7/etc/hadoop/hadoop-env ......
笔记 数据 hadoop hive java

Hive执行计划之什么是hiveSQL向量化模式及优化详解

Hive开启向量化模式也是hiveSQL优化方法中的一种,可以提升hive查询速率,也叫hive矢量化。 问题1:那么什么是hive向量化模式呢? 问题2:hive向量化什么情况下可以被使用,或者说它有哪些使用场景呢? 问题3:如何查看hive向量化使用的相关信息? ## 1.什么是hive向量化模 ......
hiveSQL 模式 Hive

【Hive】窗口函数

窗口函数介绍: 概述: 窗口函数指的是 over()函数, 它可以结合特定的函数一起使用, 完成不同的功能. ​ 目的/作用: ​ 窗口函数 = 给表新增一列, 至于新增的内容是什么, 取决于窗口函数和什么函数一起使用. 格式: 能和窗口函数一起使用的函数 over(partition by 分组字 ......
函数 Hive

【Interview】Hive原理及调优

关于Hive的参数配置: Hive的参数配置有 3 种配置方式: 方式1: 在hive的配置文件中直接进行修改. 方式2: 在开启Hive服务的时候, 设置参数 nohup hive --service hiveserver2 --hiveconf 参数名=参数值 & 方式3: 通过 set方式进行 ......
Interview 原理 Hive

【Hive】DML及DQL语句

由于Hive是分布式语言(其本质是操作了HDFS上的文件,因为HSFS是分布式架构,所以就决定了Hive是一门分布式SQL)。丢,我解释的可能不是很专业,将就看看。通常来说存储在HDFS上的数据是不能修改的,但是appendTofile这个linux命令是个特例(hadoop fs -appendT ......
语句 Hive DML DQL

Hive-DQL(续)及函数

Hive--DQL 正则匹配 正则表达式(Regexp)介绍: 概述: ​ 正确的, 符合特定规则的字符串. Regular Expression 细节: 正则表达式不独属于任意的一种语言, 市场上大多数的语言都支持正则, 例如: Java, Python, HiveSQL, JavaScript等 ......
函数 Hive-DQL Hive DQL

Hive-DDL

学会了Hive的一些操作,发现Hive建过表,后续的数据并不是向MySQL是通过自己手写进行插入的,而是将TXT文件解析成为数据表的操作。其实是HDFS将文件映射成Hive表,然后然后通过写类SQL的语句来操作该文件,底层会被解析成为MR程序。 Hive的本质 把HDFS文件映射成一张Hive表, ......
Hive-DDL Hive DDL

Hive执行计划之hive依赖及权限查询和常见使用场景

[TOC] ## 概述 Hive查看执行计划的命令中还有两个不怎么常用但很重要的命令,接下来详细介绍一下。 有一个问题:**如何在hiveSQL执行之前就探查到这段逻辑的血缘依赖关系?** hive血缘是很多生产级数仓必须要提供的功能,大多数解决方案都是**使用hive hooks的方法通过SQL执 ......
场景 权限 常见 Hive hive

Hive - 多种表类型的CURD测试

关于torc、textfile、orc、es、hyperdrive表的CURD测试 TORC(支持事务的orc表)测试 TORC(分区表)测试 TEXTFILE 表测试 ORC 表测试 ES(ElasticSearch表)测试 hyperdrive 表测试 TORC(支持事务的orc表)测试 -- ......
多种 类型 Hive CURD

Hive - hive 安装部署

Hadoop - 分布式部署 > Hive - 安装部署 准备工作 安装部署 准备工作 Hive版本:apache-hive-3.1.2 Hive官网:https://hive.apache.org/ Hive下载地址:https://downloads.apache.org/hive/ 角色部署: ......
Hive hive

RDS 、HDFS、 mapreduce 、spark 、hive、 hbase 、zookeeper 、kafka 、flume、mysql 安装时之间配置文件是如何依赖的?

这些技术是大数据领域的常用组件,它们之间的配置文件依赖关系如下: RDS是一种关系型数据库,可以独立安装和使用,不需要依赖其他组件。 HDFS是Hadoop分布式文件系统,通常与MapReduce一起使用。在Hadoop集群中,HDFS需要配置core-site.xml和hdfs-site.xml两 ......
mapreduce zookeeper 之间 文件 hbase

Hive执行计划之一文读懂Hive执行计划

**目录** [TOC] ## 概述 Hive的执行计划描述了一个hiveSQL语句的具体执行步骤,通过执行计划解读可以了解hiveSQL语句被解析器转换为相应程序语言的执行逻辑。通过执行逻辑可以知晓HiveSQL运行流程,进而对流程进行优化,实现更优的数据查询处理。 同样,通过执行计划,还可以了解 ......
Hive

hive初识

## **HIVE的认识:** #### 定义: hive 是基于 hadoop 的数据仓库工具,将结构化的数据映射成一张表,提供sql查询功能,可以对数据提取,转化,加载, 简而言之:查询和分析存储在 hadoop大规模的数据工具,离线的大数据分析 #### hive在hadoop的生态圈 hiv ......
hive

Spark集成Hive

### 命令行集成Hive 将hive中的`hive-site.xml`配置文件拷贝到spark配置文件目录下,仅需要以下内容 ```xml hive.metastore.warehouse.dir /user/hive/warehouse javax.jdo.option.ConnectionUR ......
Spark Hive

hive - beeline命令行可以使用的命令

beeline> !help !all Execute the specified SQL against all the current connections !autocommit Set autocommit mode on or off !batch Start or execute a ......
命令 beeline hive

Hive扩展内容

### 一个SQL语句的分析 ```sql SELECT a.Key, SUM(a.Cnt) AS Cnt FROM ( SELECT Key, COUNT(*) AS Cnt FROM TableName GROUP BY Key, CASE WHEN Key = 'KEY001' THEN Ha ......
内容 Hive

Hive高级函数实战

### 函数的基本操作 和mysql一样的,hive也是一个主要做统计的工具,所以为了满足各种各样的统计需要,它也内置了相当多的函数 ```sql show functions; # 查看所有内置函数 desc function functionName; # 查看指定函数的描述信息 desc fu ......
函数 实战 Hive

【博学谷学习记录】超强总结,用心分享 | hive

【博学谷IT技术支持】 # 一、介绍 `hive`是基于`hadoop`的数据仓库工具,用来进行数据的提取、转化、加载,是一种可以存储、查询和分析存储在`hadoop`中的大规模数据机制。`hive`将结构化的数据文件映射为一张数据库表,并提供`SQL`查询功能,将SQL语句变成`MapReduce ......
hive