hive-dml hive dml dql
大数据学习笔记hadoop、hive、java
HDFS伪分布式集群搭建 tar -zxvf hadoop-2.7.7.tar.gzecho $JAVA_HOME/root/software/jdk1.8.0_221#查看loaclhostvim /root/software/hadoop-2.7.7/etc/hadoop/hadoop-env ......
Hive执行计划之什么是hiveSQL向量化模式及优化详解
Hive开启向量化模式也是hiveSQL优化方法中的一种,可以提升hive查询速率,也叫hive矢量化。 问题1:那么什么是hive向量化模式呢? 问题2:hive向量化什么情况下可以被使用,或者说它有哪些使用场景呢? 问题3:如何查看hive向量化使用的相关信息? ## 1.什么是hive向量化模 ......
【Hive】窗口函数
窗口函数介绍: 概述: 窗口函数指的是 over()函数, 它可以结合特定的函数一起使用, 完成不同的功能. 目的/作用: 窗口函数 = 给表新增一列, 至于新增的内容是什么, 取决于窗口函数和什么函数一起使用. 格式: 能和窗口函数一起使用的函数 over(partition by 分组字 ......
【Interview】Hive原理及调优
关于Hive的参数配置: Hive的参数配置有 3 种配置方式: 方式1: 在hive的配置文件中直接进行修改. 方式2: 在开启Hive服务的时候, 设置参数 nohup hive --service hiveserver2 --hiveconf 参数名=参数值 & 方式3: 通过 set方式进行 ......
【Hive】DML及DQL语句
由于Hive是分布式语言(其本质是操作了HDFS上的文件,因为HSFS是分布式架构,所以就决定了Hive是一门分布式SQL)。丢,我解释的可能不是很专业,将就看看。通常来说存储在HDFS上的数据是不能修改的,但是appendTofile这个linux命令是个特例(hadoop fs -appendT ......
Hive-DQL(续)及函数
Hive--DQL 正则匹配 正则表达式(Regexp)介绍: 概述: 正确的, 符合特定规则的字符串. Regular Expression 细节: 正则表达式不独属于任意的一种语言, 市场上大多数的语言都支持正则, 例如: Java, Python, HiveSQL, JavaScript等 ......
Hive-DDL
学会了Hive的一些操作,发现Hive建过表,后续的数据并不是向MySQL是通过自己手写进行插入的,而是将TXT文件解析成为数据表的操作。其实是HDFS将文件映射成Hive表,然后然后通过写类SQL的语句来操作该文件,底层会被解析成为MR程序。 Hive的本质 把HDFS文件映射成一张Hive表, ......
Hive执行计划之hive依赖及权限查询和常见使用场景
[TOC] ## 概述 Hive查看执行计划的命令中还有两个不怎么常用但很重要的命令,接下来详细介绍一下。 有一个问题:**如何在hiveSQL执行之前就探查到这段逻辑的血缘依赖关系?** hive血缘是很多生产级数仓必须要提供的功能,大多数解决方案都是**使用hive hooks的方法通过SQL执 ......
Hive - 多种表类型的CURD测试
关于torc、textfile、orc、es、hyperdrive表的CURD测试 TORC(支持事务的orc表)测试 TORC(分区表)测试 TEXTFILE 表测试 ORC 表测试 ES(ElasticSearch表)测试 hyperdrive 表测试 TORC(支持事务的orc表)测试 -- ......
Hive - hive 安装部署
Hadoop - 分布式部署 > Hive - 安装部署 准备工作 安装部署 准备工作 Hive版本:apache-hive-3.1.2 Hive官网:https://hive.apache.org/ Hive下载地址:https://downloads.apache.org/hive/ 角色部署: ......
RDS 、HDFS、 mapreduce 、spark 、hive、 hbase 、zookeeper 、kafka 、flume、mysql 安装时之间配置文件是如何依赖的?
这些技术是大数据领域的常用组件,它们之间的配置文件依赖关系如下: RDS是一种关系型数据库,可以独立安装和使用,不需要依赖其他组件。 HDFS是Hadoop分布式文件系统,通常与MapReduce一起使用。在Hadoop集群中,HDFS需要配置core-site.xml和hdfs-site.xml两 ......
Hive执行计划之一文读懂Hive执行计划
**目录** [TOC] ## 概述 Hive的执行计划描述了一个hiveSQL语句的具体执行步骤,通过执行计划解读可以了解hiveSQL语句被解析器转换为相应程序语言的执行逻辑。通过执行逻辑可以知晓HiveSQL运行流程,进而对流程进行优化,实现更优的数据查询处理。 同样,通过执行计划,还可以了解 ......
每日记录(数据查询语法(DQL)(1))
DQL就是数据查询语言,数据库执行DQL语句不会对数据进行改变,而是让数据库发送结果集给客户端。 语法: SELECT selection_list /*要查询的列名称*/ FROM table_list /*要查询的表名称*/ WHERE condition /*行条件*/ GROUP BY gr ......
每日记录(数据查询语法(DQL)(2))
1 基础查询 1.1 查询所有列 SELECT * FROM stu; 1.2 查询指定列 SELECT sid, sname, age FROM stu; 2 条件查询 2.1 条件查询介绍 条件查询就是在查询时给出WHERE子句,在WHERE子句中可以使用如下运算符及关键字: l =、!=、<> ......
每日记录(数据查询语法(DQL)(3))
模糊查询 当想查询姓名中包含a字母的学生时就需要使用模糊查询了。模糊查询需要使用关键字LIKE。 3.1 查询姓名由5个字母构成的学生记录 SELECT * FROM stu WHERE sname LIKE '_____'; 模糊查询必须使用LIKE关键字。其中 “_”匹配任意一个字母,5个“_” ......
hive初识
## **HIVE的认识:** #### 定义: hive 是基于 hadoop 的数据仓库工具,将结构化的数据映射成一张表,提供sql查询功能,可以对数据提取,转化,加载, 简而言之:查询和分析存储在 hadoop大规模的数据工具,离线的大数据分析 #### hive在hadoop的生态圈 hiv ......
Spark集成Hive
### 命令行集成Hive 将hive中的`hive-site.xml`配置文件拷贝到spark配置文件目录下,仅需要以下内容 ```xml hive.metastore.warehouse.dir /user/hive/warehouse javax.jdo.option.ConnectionUR ......
hive - beeline命令行可以使用的命令
beeline> !help !all Execute the specified SQL against all the current connections !autocommit Set autocommit mode on or off !batch Start or execute a ......
Hive扩展内容
### 一个SQL语句的分析 ```sql SELECT a.Key, SUM(a.Cnt) AS Cnt FROM ( SELECT Key, COUNT(*) AS Cnt FROM TableName GROUP BY Key, CASE WHEN Key = 'KEY001' THEN Ha ......
Hive高级函数实战
### 函数的基本操作 和mysql一样的,hive也是一个主要做统计的工具,所以为了满足各种各样的统计需要,它也内置了相当多的函数 ```sql show functions; # 查看所有内置函数 desc function functionName; # 查看指定函数的描述信息 desc fu ......
【博学谷学习记录】超强总结,用心分享 | hive
【博学谷IT技术支持】 # 一、介绍 `hive`是基于`hadoop`的数据仓库工具,用来进行数据的提取、转化、加载,是一种可以存储、查询和分析存储在`hadoop`中的大规模数据机制。`hive`将结构化的数据文件映射为一张数据库表,并提供`SQL`查询功能,将SQL语句变成`MapReduce ......
博学谷学习记录】超强总结,用心分享 | hive的内置函数
【博学谷IT技术支持】 # 操作 ## 内置函数 ### 数学函数 - 取整函数round ``` -- 取整函数 第一个为值,第二个为保留几位小数,取证规则四舍五入 select round(2.2222); -- 2 select round(2.5); 3 select round(2.555 ......
【博学谷学习记录】超强总结,用心分享 | hive 查询、分组、join
【博学谷IT技术支持】 ## 查询 ### 常用函数 - 常用函数 ``` 常用函数 -- 求总行数(count) select count(1) from score; -- 36 -- 求分数的最大值(max) select max(sscore) from score; 99 -- 求分数的最 ......
【博学谷学习记录】超强总结,用心分享 | hive 日期函数与条件函数
【博学谷IT技术支持】 公众号: 积雷山摩云洞,欢迎关注!!! # 操作 ## 日期函数 - 获取当前时间 ``` -- 获取当前时间 -- 获取年月日 select `current_date`(); -- 2022-10-30 -- 获取年月日时分秒 select `current_timest ......
【博学谷学习记录】超强总结,用心分享 | hive分区与分桶的区别
【博学谷IT技术支持】 公众号: 积雷山摩云洞,欢迎关注!!! # 概念 - 分区表: 将数据分散到多个子目录中,在执行查询是,可以根据条件加快查询效率 - 分桶表:是相对分区更细的颗粒度划分,分桶表是将表查分到不同的文件中,根据数据表某列的hash值进行分区,对某列数据分区就是对该列属性值的has ......
Hive核心实战
### Hive中数据库的操作 ```sql show databases; # 查看数据库列表 use default; # 选择数据库 create database mydb1; # 创建数据库 create database mydb2 location '/user/hive/mydb2' ......
Hive中的表类型
在Mysql中没有表类型这个概念,因为它就只有一种表。但是Hive中是有多种表类型的,我们可以分为四种,内部表、外部表、分区表、桶表 下面来一个一个学习一下这些类型的表 ### 内部表 内部表也可以称为受控表,它是Hive中的默认表类型,表数据默认存储在 warehouse 目录中。 在加载数据的过 ......
Hive基础使用
### Hive的使用方式 可以在Shell命令行下操作Hive,或者使用JDBC代码的方式操作 ### 命令行方式 针对命令行这种方式,其实还有两种使用 - 第一个是使用bin目录下的hive命令,这个是从hive一开始就支持的使用方式 - 后来又出现一个beeline命令,它是通过HiveSer ......
Hive - 言出法随
-- 显示当前数据库 select current_database(); -- 设置hive属性在命令行显示当前数据库 set hive.cli.print.current.db=true; ......