Hive
博学谷学习记录】超强总结,用心分享 | hive的内置函数
【博学谷IT技术支持】 # 操作 ## 内置函数 ### 数学函数 - 取整函数round ``` -- 取整函数 第一个为值,第二个为保留几位小数,取证规则四舍五入 select round(2.2222); -- 2 select round(2.5); 3 select round(2.555 ......
【博学谷学习记录】超强总结,用心分享 | hive 查询、分组、join
【博学谷IT技术支持】 ## 查询 ### 常用函数 - 常用函数 ``` 常用函数 -- 求总行数(count) select count(1) from score; -- 36 -- 求分数的最大值(max) select max(sscore) from score; 99 -- 求分数的最 ......
【博学谷学习记录】超强总结,用心分享 | hive 日期函数与条件函数
【博学谷IT技术支持】 公众号: 积雷山摩云洞,欢迎关注!!! # 操作 ## 日期函数 - 获取当前时间 ``` -- 获取当前时间 -- 获取年月日 select `current_date`(); -- 2022-10-30 -- 获取年月日时分秒 select `current_timest ......
【博学谷学习记录】超强总结,用心分享 | hive分区与分桶的区别
【博学谷IT技术支持】 公众号: 积雷山摩云洞,欢迎关注!!! # 概念 - 分区表: 将数据分散到多个子目录中,在执行查询是,可以根据条件加快查询效率 - 分桶表:是相对分区更细的颗粒度划分,分桶表是将表查分到不同的文件中,根据数据表某列的hash值进行分区,对某列数据分区就是对该列属性值的has ......
Hive核心实战
### Hive中数据库的操作 ```sql show databases; # 查看数据库列表 use default; # 选择数据库 create database mydb1; # 创建数据库 create database mydb2 location '/user/hive/mydb2' ......
Hive中的表类型
在Mysql中没有表类型这个概念,因为它就只有一种表。但是Hive中是有多种表类型的,我们可以分为四种,内部表、外部表、分区表、桶表 下面来一个一个学习一下这些类型的表 ### 内部表 内部表也可以称为受控表,它是Hive中的默认表类型,表数据默认存储在 warehouse 目录中。 在加载数据的过 ......
Hive基础使用
### Hive的使用方式 可以在Shell命令行下操作Hive,或者使用JDBC代码的方式操作 ### 命令行方式 针对命令行这种方式,其实还有两种使用 - 第一个是使用bin目录下的hive命令,这个是从hive一开始就支持的使用方式 - 后来又出现一个beeline命令,它是通过HiveSer ......
Hive - 言出法随
-- 显示当前数据库 select current_database(); -- 设置hive属性在命令行显示当前数据库 set hive.cli.print.current.db=true; ......
Hive详解
### 什么是Hive Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载,可以简称为ETL。 Hive 定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户直接查询Hadoop中的数据,同时,这个语言也允许熟悉MapReduce的开发者 ......
Hive的分区、分桶
Hive的分区表、分桶表 一、 Hive库的分区表 1.1概述 Hive 中的表对应为 HDFS 上的指定目录,在查询数据时候,默认会对全表进行扫描,这样时间和性能的消耗都非常大。 分区为 HDFS 上表目录的子目录,数据按照分区存储在子目录中。如果查询的 where 字句的中包含分区条件,则直接从 ......
hive优秀文章
hiveserver2源码: 转 Hive源码分析——HiveServer2启动过程 https://zhizhi.pcwanli.com/front/article/9514.html 【原创】大数据基础之Hive(1)Hive SQL执行过程之代码流程 https://blog.csdn.net ......
本地spark通过spark集群连接hive
最近在学习spark,上周将spark集群搭建起来了,今天在idea中创建了一个测试程序读取hive库中的数据,程序很简单,但是踩到一些坑,卡了四五个小时,做个记录。 搭建Spark集群比较简单: 1、安装scala,scala版本要和spark使用的scala版本一致(因为这个问题卡了五六个小时) ......
Centos7安装配置Hive
Centos7安装配置 # 一 、 安装 安装就不多做详述,选择好自己的镜像设置好路径即可 # 二 、配置 #### 2.1 网络配置 桌面右键进入 `cmd` 命令编辑窗口,在 Linux 中设置网络的相关配置都需要管理员权限,需要先切换到 root 用户。 ```markdown vim /et ......
hive(七) -- 拉链表、数据存储及优化配置
## 拉链表 ### 数据同步问题 Hive在实际工作中主要用于构建离线数据仓库,定期的从各种数据源中同步采集数据到Hive中,经过分层转换提供数据应用。比如每天需要从MySQL中同步最新的订单信息、用户信息、店铺信息等到数据仓库中,进行订单分析、用户分析。 ![image](https://img ......
hive(六)
## 函数 Hive的函数分为两大类∶内置函数(Built-in Functions )、用户定义函数UDF (User-Defined Functions ) . 内置函数可分为︰数值类型函数、日期类型函数、字符串类型函数、集合函数、条件函数等; 用户定义函数根据输入输出的行数可分为3类:UDF、 ......
hive学习基础与调优
一、Hive基础知识 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能(hive的HQL语法设计实际模仿Mysql的语法)。其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储,说白了hive可以理解为一 ......
hive查询练习
## 练习1 ```SQl 2022-08-07 1,liuyan 2,tangyan 3,jinlian 4,dalang 5,ximenqing 2022-08-08 1,liuyan 2,tangyan 4,dalang 6,wusong -- 创建分区表记录每天用户登陆信息 create t ......
Hive函数大全
Hive内部提供了很多函数给开发者使用,包括数学函数,类型转换函数,条件函数,字符函数,聚合函数,表生成函数等等,这些函数都统称为内置函数。 数学函数 Return Type Name (Signature) Description DOUBLE round(DOUBLE a) Returns th ......
Hive - Hive介绍
是 基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供 类SQL查询功能。 Hive处理的数据存储在HDFS上,数据分析底层实现是MR,执行程序运行在Yarn上。 ......
hive(四)
## 内部表和外部表 默认情况下创建的表就是内部表,Hive拥有该表的结构和文件。换句话说,Hive完全管理表(元数据和数据)的生命周期,类似于RDBMS中的表。当你删除内部表时,它会删除数据以及表的元数据。可以使用DESCRIBE FORMATTED tablename,来获取表的元数据描述信息, ......
sqoop导数到hive任务状态一直是Accepted或Running
昨天晚上装了sqoop准备将数据从pg库导入Hive库备用,写了个sqoop脚本,运行脚本本后从yarn ui上看任务状态一直 Accepted,卡了三四个小时,最后发现是 yarn-site.xml 配置问题,给的资源太少,无法运行任务。 在 yarn-site.xml 中添加下面的内容: ``` ......
hive(三)
## HQL基础语法 Hive中的语句叫做HQL语句,是一种类似SQL的语句,基本上和SQL相同但是某些地方也是有很大的区别. ### 数据库操作 **创建数据库** - 1.创建一个数据库,数据库在HDFS上的默认存储路径是/hive/warehouse/*.db。 ```sql create d ......
HIVE跨集群迁移
查看mysql使用端口 ps -ef | grep mysql ss -antp | grep [ps查出来的pid] 停止HIVE写入服务 创建备份路径 mkdir -p /root/hivebackup/ 执行备份数据库命令:(在目标集群执行) mysqldump -uroot -pPasswo ......
impala jdbc导出hive数据字典
####业务需求太多了,给完整导出为html文件,以及之前搞的 public static void main(String[] args) throws Exception { kerberos(); } public static void kerberos() { URL resource = ......
Hive3安装
Hive3安装 Mysql安装 卸载Centos7自带的mariadb [root@node3 ~]# rpm -qa|grep mariadb mariadb-libs-5.5.64-1.el7.x86_64 [root@node3 ~]# rpm -e mariadb-libs-5.5.64-1 ......
【大数据】Hive Join 的原理与机制
一、概述 Hive是一个基于Hadoop的数据仓库解决方案,它提供了类似于SQL的查询语言,称为HiveQL,用于处理结构化数据。在Hive中,JOIN操作用于将两个或多个表中的数据连接在一起,以便进行联合查询和分析。 Hive 中 的 Join 可分为 Common Join(Reduce阶段完成 ......
基于Hadoop3.1.3安装Hive3.1.2
Hive是什么? \t Hive 是一个基于 Hadoop 的数据仓库工具,它提供了类似 SQL 的查询语言 HQL(Hive Query Language),使得开发人员可以使用类 SQL 语言来查询和处理存储在大规模 分布式文件系统(如 HDFS)中的数据。 Hive有哪些功能? Hive 的主 ......
【大数据】Hive DDL 操作与视图讲解
一、概述 Hive是建立在Hadoop上的数据仓库工具,它允许用户通过类SQL的语法来查询和管理数据。在Hive中,DDL(数据定义语言)和视图操作是非常常见的。 1)表和视图关系 表和视图都是数据存储的逻辑表示方式。它们之间有以下关系: 视图可以基于一个或多个表创建,而表不可以基于其他表或视图创建 ......
【大数据】Hive 内置函数和 UDF 讲解
一、概述 Hive是基于Hadoop的一个数据仓库工具,可以将结构化数据文件映射为一张数据库表,并提供类SQL语句操作。Hive内置了很多函数,可以满足基本的查询需求,同时还支持自定义函数(UDF)来实现更加灵活的操作。 官方文档:https://cwiki.apache.org/confluenc ......
【大数据】Hive 分区和分桶的区别及示例讲解
一、概述 在大数据处理过程中,Hive是一种非常常用的数据仓库工具。Hive分区和分桶是优化Hive性能的两种方式,它们的区别如下: 1)分区概述 Hive分区是把数据按照某个属性分成不同的数据子集。 在Hive中,数据被存储在HDFS中,每个分区实际上对应HDFS下的一个文件夹,这个文件夹中保存了 ......