hadoop3 hadoop hive3 hive
hive出现MetaException(message:Metastore contains multiple versions (2)异常
1、使用Spark操作Hive表时发生的报错 2、错误日志 23/04/19 08:49:28 WARN metadata.Hive: Failed to access metastore. This class should not accessed in runtime. org.apache. ......
下载Apache软件基金的软件和项目(Hadoop相关组件)
一、下载Hadoop相关组件,可以到Apache软件基金的资源目录: Apache 分发目录地址:https://dlcdn.apache.org/ 二、下载软件 方法一:在页面中找到需要下载的软件目录,点击进去,选择对应的版本就可以直接下载。 方法二:在上面的地址栏中直接加上对应的组件名称,进入后 ......
Hive 修改计算引擎方法
前置说明 各位应该清楚,hive 默认计算引擎是 mr,当集群配置了 hive-ob-spark 后可以根据需要自行切换计算引擎 其它计算引擎切换为mapreduce set hive.execution.engine=mr; 其它计算引擎切换为 spark set hive.execution.e ......
hadoop HA
之前的配置与伪分布式与完全分布式相同 不同的是配置文件,如果前面不懂的可以去看完全分布式的文章 HA前提调剂搭建好zookeeper集群,并且启动 core-site.xml <configuration> <property> <name>fs.defaultFS</name> <value>hd ......
hive
解压hive到/usr/local/src目录下并修改名称为hive mv apache-hive-3.1.3-bin hive 配置hive的环境变量 #HIVE_HOME export HIVE_HOME=/usr/local/src/hive export PATH=$PATH=$HIVE_H ......
Hadoop集群手动主备切换
查看节点状态 #查看节点状态 [root@hadoop1 bin]# hdfs haadmin -getServiceState nn1 standby [root@hadoop1 bin]# hdfs haadmin -getServiceState nn2 active [root@hadoop ......
hive使用trino查询时报分区不存在问题
1.使用sql界面查询时报错”分区不存在“ 2.后台查看文件不存在 $ hdfs dfs -s /warehouse/cleaned.db/dataitem1 202304/f=20230412 2se/warehouse/cleaned.db/dataitem1 202304/f=20230412 ......
Windows10系统下Hadoop和Hive环境搭建
文章部分内容来自:https://www.cnblogs.com/sheng-sjk/p/16186508.html 结合实际搭建过程中的问题,对文章进行了优化 环境准备 | 软件 | 版本 | 备注 | | : : | : : | : : | | Windows | 10 | 操作系统 | | J ......
Hadoop - HDFS常用命令
“hadoop fs(hdfs dfs)文件操作” # 查看目录 hdfs dfs -ls / # 查看目录下所有文件 hdfs dfs -ls -R / # 创建目录 hdfs dfs -mkdir -p /source/data # 查看文件或目录大小 hdfs dfs -du -h /sour ......
hadoop伪分布式集群的安装(不是单机版)
准备工作 三台虚拟机,关闭防火墙,关闭selinux 查看防火状态 systemctl status firewalld 暂时关闭防火墙 systemctl stop firewalld 永久关闭防火墙 systemctl disable firewalld 查看 selinux状态 getenfo ......
Hive解析Json字符串
在Hive中会有很多数据是用Json格式来存储的,如开发人员对APP上的页面进行埋点时,会将多个字段存放在一个json数组中,因此数据平台调用数据时,要对埋点数据进行解析。接下来就聊聊Hive中是如何解析json数据的。 Hive自带的json解析函数 1. get_json_object 语法:g ......
hadoop完全分布式
准备工作 三台虚拟机,关闭防火墙,关闭selinux 查看防火状态 systemctl status firewalld 暂时关闭防火墙 systemctl stop firewalld 永久关闭防火墙 systemctl disable firewalld 查看 selinux状态 getenfo ......
Hive构造数据踩坑
运维哥哥为了获取每个表的访问时间,开启了Hive钩子,在集群参数里面配置了hive.exec.pre.hooks= org.apache.hadoop.hive.ql.hooks.UpdateInputAccessTimeHook$PreExec,结果导致在使用图1的sql时报找不到虚拟表的错误(如 ......
Pandas实现Hive中的窗口函数
1、Hive窗口函数 我们先来介绍一下Hive中几个常见的窗口函数,row_number(),lag()和lead()。 1.1 row_number() 该函数的格式如下: row_Number() OVER (partition by 分组字段 ORDER BY 排序字段 排序方式asc/des ......
Hive元数据信息表
--Hive元数据表 1.表信息 (1)TBLS--记录数据表信息,可作为左表,关联其他表信息 (2)TABLE_PARAMS—存储Hive表的属性信息 具体数据内容: (3)COLUMNS_V2—保存表的字段信息 2.分区信息 (1)PARTITIONS (2)PARTITIONS_PARAMS— ......
Hive元数据配置到Mysql
1. 将mysql的JDBC驱动拷贝到Hive的lib目录下 [root@hadoop1 lib]# ls mysql-connector-java-5.1.34.jar 2. 配置MetaStore到Mysql [root@hadoop1 conf]# vi hive-site.xml <conf ......
openEuler 单机部署 Hadoop SingleNode 模式
openEuler 单机部署 Hadoop SingleNode 模式 升级操作系统和软件 yum -y update 升级后建议重启 安装常用软件 yum -y install gcc gcc-c++ autoconf automake cmake make rsync openssh-serve ......
hadoop优化
# Hadoop优化 ## 案例、天气预报 > 随机生成温度代码 ```java package com.shujia.weather; import java.text.DateFormat; import java.text.ParseException; import java.text.Si ......
Hive启动成功
1. 启动hive [root@hadoop1 ~]# /root/tools/hive/hive/bin/hive SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found binding in [jar:file:/root ......
Hive的SQL优化
--HiveSQL优化 1.查看执行计划 --基本信息 explain select * from part1 where id<10; --显示输入属性 explain dependency --查看SQL相关权限信息 explain authorization --查看SQL向量化描述信息,显示 ......
Hive是什么
Hive是一种基于Hadoop的数据仓库工具,它可以将结构化数据映射为一张数据库表,提供了类似于SQL的查询语言,使得数据分析师和开发人员可以使用SQL语句对分布式存储的数据进行查询和分析。 Hive可以将Hadoop分布式文件系统(HDFS)中的数据转换为SQL查询,从而使得分布式数据分析变得更加 ......
Hive3安装
1、下载安装包 地址:http://archive.apache.org/dist/hive/ 2、安装mysql 参考:https://www.cnblogs.com/jpxjx/p/16817724.html 3、上传安装包并解压 tar zxvf apache-hive-3.1.2-bin.t ......
hive快速入门
Hive是一个基于Hadoop的数据仓库工具,它提供了类似于SQL的查询语言(HiveQL)来对存储在Hadoop分布式文件系统(HDFS)中的数据进行查询和分析。 Hive的目标是使得数据分析人员可以使用熟悉的SQL语言进行数据分析,而无需编写MapReduce程序。 Hive将查询语句翻译为Ma ......
Hive学习记录
数仓概念 数据仓库(英语:Data Warehouse,简称数仓、DW),是一个用于存储、分析、报告的数据系统。 数据仓库的目的是构建面向分析的集成化数据环境,分析结果为企业提供决策支持(Decision Support) SQL语法分类 SQL主要语法分为两个部分:数据定义语言 (DDL)和数据操 ......
linux系统下Hadoop集群环境搭建
1、前言 基于redhat7.6系统搭建全分布式Hadoop3.3.5集群环境(模拟三台机,1主角色,2从角色)。 2、安装虚拟机 参考:https://www.cnblogs.com/jpxjx/p/16800831.html 3、虚拟机安装redhat7.6 参考:https://www.cnb ......
Hadoop与Hadoop集群介绍
1、什么是Hadoop 狭义上Hadoop指的是Apache软件基金会的一款开源软件。用java语言实现,开源。允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理 广义上Hadoop指的是围绕Hadoop打造的大数据生态圈。 2、Hadoop核心组件 Hadoop HDFS(分布式 ......
大数据面试题集锦-Hadoop面试题(一)
你准备好面试了吗?这里有一些面试中可能会问到的问题以及相对应的答案。 1、集群的最主要瓶颈 磁盘IO 2、Hadoop运行模式 单机版、伪分布式模式、完全分布式模式 3、Hadoop生态圈的组件并做简要描述 Zookeeper:是一个开源的分布式应用程序协调服务,基于zookeeper可以实现同步服 ......
使HIve字段注释、表注释、分区键、索引注解支持中文
进入Hive元存储数据库,这里为MySQL 修改字段注释字符集 alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8; 修改表注释字符集 alter table TABLE_PARAMS modify ......
远程连接Hive
0 准备工作 启动了Hadoop 启动了Hive元存储数据库 1 开启Hive远程连接服务 # 前台开启 hive --service metastore hive --service hiveserver2 # 后台开启 hive --service metastore & hive --serv ......
hadoop学习记录
Hadoop简介安装 狭义上Hadoop指的是Apache软件基金会的一款开源软件用java语言实现,开源允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理 Hadoop核心组件 Hadoop HDFS(分布式文件存储系统):解决海量数据存储 Hadoop YARN(集群资源管理和 ......