Hive
Hive单机安装与测试
安装MySQL并运行 在当前用户下运行 sudo apt update sudo apt install mysql-server 安装成功后启动MySQL服务,运行 sudo service mysql start 查看MySQL的默认用户名和密码,运行 sudo cat /etc/mysql/d ......
hive on spark报错
Error in query: Detected implicit cartesian product for LEFT OUTER join between logical plansUnion Join condition is missing or trivial.Either: use th ......
Ubuntu系统python连接hive遇到的一些问题
1.第一个问题,sasl这个库安装不上,报 缺少sasl.h的问题(#include <sasl/sasl.h>) 解决方法:sudo apt-get install -y libsasl2-dev gcc python-dev 2.第二个问题,连接的时候报 Could not start SASL ......
Hive On Spark调优
第1章 集群环境概述 1.1 集群配置概述 本课程所用集群由5台节点构成 其中2台为master节点: 用于部署HDFS的NameNode Yarn的ResourceManager 另外3台为worker节点,用于部署HDFS的DataNode、Yarn的NodeManager等角色。 Master ......
datax从hive向pg同步踩的坑
1. [INFO] 2023-04-21 14:11:00.836 - [taskAppId=TASK-9296114303648_1-2137236-2376388]:[61] - -> 2023-04-21 14:11:00.783 [job-0] ERROR RetryUtil - Excep ......
hive出现MetaException(message:Metastore contains multiple versions (2)异常
1、使用Spark操作Hive表时发生的报错 2、错误日志 23/04/19 08:49:28 WARN metadata.Hive: Failed to access metastore. This class should not accessed in runtime. org.apache. ......
Hive 修改计算引擎方法
前置说明 各位应该清楚,hive 默认计算引擎是 mr,当集群配置了 hive-ob-spark 后可以根据需要自行切换计算引擎 其它计算引擎切换为mapreduce set hive.execution.engine=mr; 其它计算引擎切换为 spark set hive.execution.e ......
hive
解压hive到/usr/local/src目录下并修改名称为hive mv apache-hive-3.1.3-bin hive 配置hive的环境变量 #HIVE_HOME export HIVE_HOME=/usr/local/src/hive export PATH=$PATH=$HIVE_H ......
hive使用trino查询时报分区不存在问题
1.使用sql界面查询时报错”分区不存在“ 2.后台查看文件不存在 $ hdfs dfs -s /warehouse/cleaned.db/dataitem1 202304/f=20230412 2se/warehouse/cleaned.db/dataitem1 202304/f=20230412 ......
Windows10系统下Hadoop和Hive环境搭建
文章部分内容来自:https://www.cnblogs.com/sheng-sjk/p/16186508.html 结合实际搭建过程中的问题,对文章进行了优化 环境准备 | 软件 | 版本 | 备注 | | : : | : : | : : | | Windows | 10 | 操作系统 | | J ......
Hive解析Json字符串
在Hive中会有很多数据是用Json格式来存储的,如开发人员对APP上的页面进行埋点时,会将多个字段存放在一个json数组中,因此数据平台调用数据时,要对埋点数据进行解析。接下来就聊聊Hive中是如何解析json数据的。 Hive自带的json解析函数 1. get_json_object 语法:g ......
Hive构造数据踩坑
运维哥哥为了获取每个表的访问时间,开启了Hive钩子,在集群参数里面配置了hive.exec.pre.hooks= org.apache.hadoop.hive.ql.hooks.UpdateInputAccessTimeHook$PreExec,结果导致在使用图1的sql时报找不到虚拟表的错误(如 ......
Pandas实现Hive中的窗口函数
1、Hive窗口函数 我们先来介绍一下Hive中几个常见的窗口函数,row_number(),lag()和lead()。 1.1 row_number() 该函数的格式如下: row_Number() OVER (partition by 分组字段 ORDER BY 排序字段 排序方式asc/des ......
Hive元数据信息表
--Hive元数据表 1.表信息 (1)TBLS--记录数据表信息,可作为左表,关联其他表信息 (2)TABLE_PARAMS—存储Hive表的属性信息 具体数据内容: (3)COLUMNS_V2—保存表的字段信息 2.分区信息 (1)PARTITIONS (2)PARTITIONS_PARAMS— ......
Hive元数据配置到Mysql
1. 将mysql的JDBC驱动拷贝到Hive的lib目录下 [root@hadoop1 lib]# ls mysql-connector-java-5.1.34.jar 2. 配置MetaStore到Mysql [root@hadoop1 conf]# vi hive-site.xml <conf ......
Hive启动成功
1. 启动hive [root@hadoop1 ~]# /root/tools/hive/hive/bin/hive SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found binding in [jar:file:/root ......
Hive的SQL优化
--HiveSQL优化 1.查看执行计划 --基本信息 explain select * from part1 where id<10; --显示输入属性 explain dependency --查看SQL相关权限信息 explain authorization --查看SQL向量化描述信息,显示 ......
Hive是什么
Hive是一种基于Hadoop的数据仓库工具,它可以将结构化数据映射为一张数据库表,提供了类似于SQL的查询语言,使得数据分析师和开发人员可以使用SQL语句对分布式存储的数据进行查询和分析。 Hive可以将Hadoop分布式文件系统(HDFS)中的数据转换为SQL查询,从而使得分布式数据分析变得更加 ......
Hive3安装
1、下载安装包 地址:http://archive.apache.org/dist/hive/ 2、安装mysql 参考:https://www.cnblogs.com/jpxjx/p/16817724.html 3、上传安装包并解压 tar zxvf apache-hive-3.1.2-bin.t ......
hive快速入门
Hive是一个基于Hadoop的数据仓库工具,它提供了类似于SQL的查询语言(HiveQL)来对存储在Hadoop分布式文件系统(HDFS)中的数据进行查询和分析。 Hive的目标是使得数据分析人员可以使用熟悉的SQL语言进行数据分析,而无需编写MapReduce程序。 Hive将查询语句翻译为Ma ......
Hive学习记录
数仓概念 数据仓库(英语:Data Warehouse,简称数仓、DW),是一个用于存储、分析、报告的数据系统。 数据仓库的目的是构建面向分析的集成化数据环境,分析结果为企业提供决策支持(Decision Support) SQL语法分类 SQL主要语法分为两个部分:数据定义语言 (DDL)和数据操 ......
使HIve字段注释、表注释、分区键、索引注解支持中文
进入Hive元存储数据库,这里为MySQL 修改字段注释字符集 alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8; 修改表注释字符集 alter table TABLE_PARAMS modify ......
远程连接Hive
0 准备工作 启动了Hadoop 启动了Hive元存储数据库 1 开启Hive远程连接服务 # 前台开启 hive --service metastore hive --service hiveserver2 # 后台开启 hive --service metastore & hive --serv ......
hive OpenCSVSerde
OpenCSVSerDe 1.如果数据包含使用双引号 (") 括起的值 2.您的数据具有 UNIX 数字 TIMESTAMP 值 (时间戳) create table tab_name (element element_type...) row format serde 'org.apache.ha ......
Error: Could not open client transport with JDBC Uri: jdbc:hive2://hadoop1:10000:
解决方法:配置超级用户代理其他用户 在hadoop配置文件core-site.xml添加 <property> <name>hadoop.proxyuser.super.hosts</name> <value>host1,host2</value> </property> <property> <n ......
Hive下载安装配置
0 准备工作 下载安装jdk:https://www.cnblogs.com/lgjb/p/17292890.html 搭建Hadoop完全分布式集群:https://www.cnblogs.com/lgjb/p/17292835.html 下载安装MySQL:https://www.cnblogs ......
hive 数据仓库分层
1:为什么要分层 大多数情况下,我们完成的数据体系却是依赖复杂、层级混乱的。如下图,在不知不觉的情况下,我们可能会做出一套表依赖结构混乱,甚至出现循环依赖的数据体系 我们需要一套行之有效的数据组织和管理方法来让我们的数据体系更有序,这就是谈到的数据分层。数据分层并不能解决所有的数据问题 2:数仓的三 ......
hive Serde(默认)
Hive 读文件机制 首先调用InputFormat(默认TextFormat),返回一条一条的键值对记录(默认是一行对一行键值对)。然后用Serde(默认为LazySimpleSerde)的Deserializer,将一条记录的value根据分隔符切分为各个字段。 | HDFS files | I ......
通过 docker-compose 快速部署 Hive 详细教程
一、概述 其实通过 docker-compose 部署 hive 是在继上篇文章 Hadoop 部署的基础之上叠加的,Hive 做为最常用的数仓服务,所以是有必要进行集成的,感兴趣的小伙伴请认真阅读我以下内容,通过 docker-compose 部署的服务主要是用最少的资源和时间成本快速部署服务,方 ......
Hadoop、Hive和Spark的关系
大数据技术生态中,Hadoop、Hive、Spark是什么关系?| 通俗易懂科普向 Hadoop、Hive和Spark,都是大数据相关的系统和技术。 大数据也是数据管理系统的范畴。数据管理系统涉及两个方面的问题,一个是数据怎么存储?一个是数据怎么计算? 为了方便理解,我们需要从单机的时代来讲解。 在 ......