hadoop hbase hive
datax从hive向pg同步踩的坑
1. [INFO] 2023-04-21 14:11:00.836 - [taskAppId=TASK-9296114303648_1-2137236-2376388]:[61] - -> 2023-04-21 14:11:00.783 [job-0] ERROR RetryUtil - Excep ......
08.hbase创建表
[root@ecs-0001 bin]# hbase shell查看所有表hbase(main):001:0> listcreate 'SAAS:DWS_MCHT_SHOP_PORTRAYS', 'BASE', 'DATA'查看表详情desc 'SAAS:DWS_MCHT_SHOP_PORTRAYS ......
hive出现MetaException(message:Metastore contains multiple versions (2)异常
1、使用Spark操作Hive表时发生的报错 2、错误日志 23/04/19 08:49:28 WARN metadata.Hive: Failed to access metastore. This class should not accessed in runtime. org.apache. ......
下载Apache软件基金的软件和项目(Hadoop相关组件)
一、下载Hadoop相关组件,可以到Apache软件基金的资源目录: Apache 分发目录地址:https://dlcdn.apache.org/ 二、下载软件 方法一:在页面中找到需要下载的软件目录,点击进去,选择对应的版本就可以直接下载。 方法二:在上面的地址栏中直接加上对应的组件名称,进入后 ......
Hive 修改计算引擎方法
前置说明 各位应该清楚,hive 默认计算引擎是 mr,当集群配置了 hive-ob-spark 后可以根据需要自行切换计算引擎 其它计算引擎切换为mapreduce set hive.execution.engine=mr; 其它计算引擎切换为 spark set hive.execution.e ......
hadoop HA
之前的配置与伪分布式与完全分布式相同 不同的是配置文件,如果前面不懂的可以去看完全分布式的文章 HA前提调剂搭建好zookeeper集群,并且启动 core-site.xml <configuration> <property> <name>fs.defaultFS</name> <value>hd ......
hive
解压hive到/usr/local/src目录下并修改名称为hive mv apache-hive-3.1.3-bin hive 配置hive的环境变量 #HIVE_HOME export HIVE_HOME=/usr/local/src/hive export PATH=$PATH=$HIVE_H ......
Hadoop集群手动主备切换
查看节点状态 #查看节点状态 [root@hadoop1 bin]# hdfs haadmin -getServiceState nn1 standby [root@hadoop1 bin]# hdfs haadmin -getServiceState nn2 active [root@hadoop ......
hbase运维
1、hbase集群服务器重启可能导致dfs进入保护模式,日志如下: Waiting for dfs to exit safe mode 手动离开保护模式:hadoop dfsadmin -safemode leave 2、服务器重启导致hadoop数据块缺失,日志如下: There are 3 mi ......
hive使用trino查询时报分区不存在问题
1.使用sql界面查询时报错”分区不存在“ 2.后台查看文件不存在 $ hdfs dfs -s /warehouse/cleaned.db/dataitem1 202304/f=20230412 2se/warehouse/cleaned.db/dataitem1 202304/f=20230412 ......
Windows10系统下Hadoop和Hive环境搭建
文章部分内容来自:https://www.cnblogs.com/sheng-sjk/p/16186508.html 结合实际搭建过程中的问题,对文章进行了优化 环境准备 | 软件 | 版本 | 备注 | | : : | : : | : : | | Windows | 10 | 操作系统 | | J ......
Hadoop - HDFS常用命令
“hadoop fs(hdfs dfs)文件操作” # 查看目录 hdfs dfs -ls / # 查看目录下所有文件 hdfs dfs -ls -R / # 创建目录 hdfs dfs -mkdir -p /source/data # 查看文件或目录大小 hdfs dfs -du -h /sour ......
hadoop伪分布式集群的安装(不是单机版)
准备工作 三台虚拟机,关闭防火墙,关闭selinux 查看防火状态 systemctl status firewalld 暂时关闭防火墙 systemctl stop firewalld 永久关闭防火墙 systemctl disable firewalld 查看 selinux状态 getenfo ......
Hive解析Json字符串
在Hive中会有很多数据是用Json格式来存储的,如开发人员对APP上的页面进行埋点时,会将多个字段存放在一个json数组中,因此数据平台调用数据时,要对埋点数据进行解析。接下来就聊聊Hive中是如何解析json数据的。 Hive自带的json解析函数 1. get_json_object 语法:g ......
hadoop完全分布式
准备工作 三台虚拟机,关闭防火墙,关闭selinux 查看防火状态 systemctl status firewalld 暂时关闭防火墙 systemctl stop firewalld 永久关闭防火墙 systemctl disable firewalld 查看 selinux状态 getenfo ......
Hive构造数据踩坑
运维哥哥为了获取每个表的访问时间,开启了Hive钩子,在集群参数里面配置了hive.exec.pre.hooks= org.apache.hadoop.hive.ql.hooks.UpdateInputAccessTimeHook$PreExec,结果导致在使用图1的sql时报找不到虚拟表的错误(如 ......
Pandas实现Hive中的窗口函数
1、Hive窗口函数 我们先来介绍一下Hive中几个常见的窗口函数,row_number(),lag()和lead()。 1.1 row_number() 该函数的格式如下: row_Number() OVER (partition by 分组字段 ORDER BY 排序字段 排序方式asc/des ......
Hive元数据信息表
--Hive元数据表 1.表信息 (1)TBLS--记录数据表信息,可作为左表,关联其他表信息 (2)TABLE_PARAMS—存储Hive表的属性信息 具体数据内容: (3)COLUMNS_V2—保存表的字段信息 2.分区信息 (1)PARTITIONS (2)PARTITIONS_PARAMS— ......
Hive元数据配置到Mysql
1. 将mysql的JDBC驱动拷贝到Hive的lib目录下 [root@hadoop1 lib]# ls mysql-connector-java-5.1.34.jar 2. 配置MetaStore到Mysql [root@hadoop1 conf]# vi hive-site.xml <conf ......
HBase系列---【(一)HBase的介绍】
HBase的介绍及使用 1.HBase是什么 HBase是基于Google的BigTable论文,建立在HDFS之上,提供高可靠性,高性能,列存储,可伸缩,实时读写的分布式大数据数据库。 2.HBase的特点 1.极易扩展,海量存储 底层依赖HDFS,当磁盘空间不足的时候,只需要动态增加datano ......
openEuler 单机部署 Hadoop SingleNode 模式
openEuler 单机部署 Hadoop SingleNode 模式 升级操作系统和软件 yum -y update 升级后建议重启 安装常用软件 yum -y install gcc gcc-c++ autoconf automake cmake make rsync openssh-serve ......
hadoop优化
# Hadoop优化 ## 案例、天气预报 > 随机生成温度代码 ```java package com.shujia.weather; import java.text.DateFormat; import java.text.ParseException; import java.text.Si ......
Hive启动成功
1. 启动hive [root@hadoop1 ~]# /root/tools/hive/hive/bin/hive SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found binding in [jar:file:/root ......
Hive的SQL优化
--HiveSQL优化 1.查看执行计划 --基本信息 explain select * from part1 where id<10; --显示输入属性 explain dependency --查看SQL相关权限信息 explain authorization --查看SQL向量化描述信息,显示 ......
Hive是什么
Hive是一种基于Hadoop的数据仓库工具,它可以将结构化数据映射为一张数据库表,提供了类似于SQL的查询语言,使得数据分析师和开发人员可以使用SQL语句对分布式存储的数据进行查询和分析。 Hive可以将Hadoop分布式文件系统(HDFS)中的数据转换为SQL查询,从而使得分布式数据分析变得更加 ......
Hive3安装
1、下载安装包 地址:http://archive.apache.org/dist/hive/ 2、安装mysql 参考:https://www.cnblogs.com/jpxjx/p/16817724.html 3、上传安装包并解压 tar zxvf apache-hive-3.1.2-bin.t ......
hbase快速入门
HBase是一个基于Hadoop的开源、分布式、非关系型数据库,它是Google Bigtable的开源实现之一。 HBase旨在处理具有非常大规模的数据集,这些数据集通常存储在Hadoop分布式文件系统(HDFS)中,并且需要实时访问和随机读写。 HBase的数据模型类似于Google Bigta ......
hive快速入门
Hive是一个基于Hadoop的数据仓库工具,它提供了类似于SQL的查询语言(HiveQL)来对存储在Hadoop分布式文件系统(HDFS)中的数据进行查询和分析。 Hive的目标是使得数据分析人员可以使用熟悉的SQL语言进行数据分析,而无需编写MapReduce程序。 Hive将查询语句翻译为Ma ......
Hive学习记录
数仓概念 数据仓库(英语:Data Warehouse,简称数仓、DW),是一个用于存储、分析、报告的数据系统。 数据仓库的目的是构建面向分析的集成化数据环境,分析结果为企业提供决策支持(Decision Support) SQL语法分类 SQL主要语法分为两个部分:数据定义语言 (DDL)和数据操 ......