hadoop hbase hive

datax从hive向pg同步踩的坑

1. [INFO] 2023-04-21 14:11:00.836 - [taskAppId=TASK-9296114303648_1-2137236-2376388]:[61] - -> 2023-04-21 14:11:00.783 [job-0] ERROR RetryUtil - Excep ......
datax hive

08.hbase创建表

[root@ecs-0001 bin]# hbase shell查看所有表hbase(main):001:0> listcreate 'SAAS:DWS_MCHT_SHOP_PORTRAYS', 'BASE', 'DATA'查看表详情desc 'SAAS:DWS_MCHT_SHOP_PORTRAYS ......
hbase 08

hive出现MetaException(message:Metastore contains multiple versions (2)异常

1、使用Spark操作Hive表时发生的报错 2、错误日志 23/04/19 08:49:28 WARN metadata.Hive: Failed to access metastore. This class should not accessed in runtime. org.apache. ......

下载Apache软件基金的软件和项目(Hadoop相关组件)

一、下载Hadoop相关组件,可以到Apache软件基金的资源目录: Apache 分发目录地址:https://dlcdn.apache.org/ 二、下载软件 方法一:在页面中找到需要下载的软件目录,点击进去,选择对应的版本就可以直接下载。 方法二:在上面的地址栏中直接加上对应的组件名称,进入后 ......
软件 组件 基金 项目 Apache

Hive 修改计算引擎方法

前置说明 各位应该清楚,hive 默认计算引擎是 mr,当集群配置了 hive-ob-spark 后可以根据需要自行切换计算引擎 其它计算引擎切换为mapreduce set hive.execution.engine=mr; 其它计算引擎切换为 spark set hive.execution.e ......
引擎 方法 Hive

hadoop HA

之前的配置与伪分布式与完全分布式相同 不同的是配置文件,如果前面不懂的可以去看完全分布式的文章 HA前提调剂搭建好zookeeper集群,并且启动 core-site.xml <configuration> <property> <name>fs.defaultFS</name> <value>hd ......
hadoop HA

hive

解压hive到/usr/local/src目录下并修改名称为hive mv apache-hive-3.1.3-bin hive 配置hive的环境变量 #HIVE_HOME export HIVE_HOME=/usr/local/src/hive export PATH=$PATH=$HIVE_H ......
hive

Hadoop集群手动主备切换

查看节点状态 #查看节点状态 [root@hadoop1 bin]# hdfs haadmin -getServiceState nn1 standby [root@hadoop1 bin]# hdfs haadmin -getServiceState nn2 active [root@hadoop ......
集群 手动 Hadoop

hbase运维

1、hbase集群服务器重启可能导致dfs进入保护模式,日志如下: Waiting for dfs to exit safe mode 手动离开保护模式:hadoop dfsadmin -safemode leave 2、服务器重启导致hadoop数据块缺失,日志如下: There are 3 mi ......
hbase

hive使用trino查询时报分区不存在问题

1.使用sql界面查询时报错”分区不存在“ 2.后台查看文件不存在 $ hdfs dfs -s /warehouse/cleaned.db/dataitem1 202304/f=20230412 2se/warehouse/cleaned.db/dataitem1 202304/f=20230412 ......
时报 问题 trino hive

Windows10系统下Hadoop和Hive环境搭建

文章部分内容来自:https://www.cnblogs.com/sheng-sjk/p/16186508.html 结合实际搭建过程中的问题,对文章进行了优化 环境准备 | 软件 | 版本 | 备注 | | : : | : : | : : | | Windows | 10 | 操作系统 | | J ......
Windows 环境 Hadoop 系统 Hive

Hadoop - HDFS常用命令

“hadoop fs(hdfs dfs)文件操作” # 查看目录 hdfs dfs -ls / # 查看目录下所有文件 hdfs dfs -ls -R / # 创建目录 hdfs dfs -mkdir -p /source/data # 查看文件或目录大小 hdfs dfs -du -h /sour ......
命令 常用 Hadoop HDFS

hadoop伪分布式集群的安装(不是单机版)

准备工作 三台虚拟机,关闭防火墙,关闭selinux 查看防火状态 systemctl status firewalld 暂时关闭防火墙 systemctl stop firewalld 永久关闭防火墙 systemctl disable firewalld 查看 selinux状态 getenfo ......
单机版 分布式 集群 单机 hadoop

Hive解析Json字符串

在Hive中会有很多数据是用Json格式来存储的,如开发人员对APP上的页面进行埋点时,会将多个字段存放在一个json数组中,因此数据平台调用数据时,要对埋点数据进行解析。接下来就聊聊Hive中是如何解析json数据的。 Hive自带的json解析函数 1. get_json_object 语法:g ......
字符串 字符 Hive Json

hadoop完全分布式

准备工作 三台虚拟机,关闭防火墙,关闭selinux 查看防火状态 systemctl status firewalld 暂时关闭防火墙 systemctl stop firewalld 永久关闭防火墙 systemctl disable firewalld 查看 selinux状态 getenfo ......
分布式 hadoop

Hive构造数据踩坑

运维哥哥为了获取每个表的访问时间,开启了Hive钩子,在集群参数里面配置了hive.exec.pre.hooks= org.apache.hadoop.hive.ql.hooks.UpdateInputAccessTimeHook$PreExec,结果导致在使用图1的sql时报找不到虚拟表的错误(如 ......
数据 Hive

Pandas实现Hive中的窗口函数

1、Hive窗口函数 我们先来介绍一下Hive中几个常见的窗口函数,row_number(),lag()和lead()。 1.1 row_number() 该函数的格式如下: row_Number() OVER (partition by 分组字段 ORDER BY 排序字段 排序方式asc/des ......
函数 Pandas Hive

Hive元数据信息表

--Hive元数据表 1.表信息 (1)TBLS--记录数据表信息,可作为左表,关联其他表信息 (2)TABLE_PARAMS—存储Hive表的属性信息 具体数据内容: (3)COLUMNS_V2—保存表的字段信息 2.分区信息 (1)PARTITIONS (2)PARTITIONS_PARAMS— ......
数据 信息 Hive

Hive元数据配置到Mysql

1. 将mysql的JDBC驱动拷贝到Hive的lib目录下 [root@hadoop1 lib]# ls mysql-connector-java-5.1.34.jar 2. 配置MetaStore到Mysql [root@hadoop1 conf]# vi hive-site.xml <conf ......
数据 Mysql Hive

HBase系列---【(一)HBase的介绍】

HBase的介绍及使用 1.HBase是什么 HBase是基于Google的BigTable论文,建立在HDFS之上,提供高可靠性,高性能,列存储,可伸缩,实时读写的分布式大数据数据库。 2.HBase的特点 1.极易扩展,海量存储 底层依赖HDFS,当磁盘空间不足的时候,只需要动态增加datano ......
HBase

openEuler 单机部署 Hadoop SingleNode 模式

openEuler 单机部署 Hadoop SingleNode 模式 升级操作系统和软件 yum -y update 升级后建议重启 安装常用软件 yum -y install gcc gcc-c++ autoconf automake cmake make rsync openssh-serve ......
SingleNode 单机 openEuler 模式 Hadoop

hadoop优化

# Hadoop优化 ## 案例、天气预报 > 随机生成温度代码 ```java package com.shujia.weather; import java.text.DateFormat; import java.text.ParseException; import java.text.Si ......
hadoop

Hive启动成功

1. 启动hive [root@hadoop1 ~]# /root/tools/hive/hive/bin/hive SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found binding in [jar:file:/root ......
Hive

Hive的SQL优化

--HiveSQL优化 1.查看执行计划 --基本信息 explain select * from part1 where id<10; --显示输入属性 explain dependency --查看SQL相关权限信息 explain authorization --查看SQL向量化描述信息,显示 ......
Hive SQL

Hive是什么

Hive是一种基于Hadoop的数据仓库工具,它可以将结构化数据映射为一张数据库表,提供了类似于SQL的查询语言,使得数据分析师和开发人员可以使用SQL语句对分布式存储的数据进行查询和分析。 Hive可以将Hadoop分布式文件系统(HDFS)中的数据转换为SQL查询,从而使得分布式数据分析变得更加 ......
Hive

Hive3安装

1、下载安装包 地址:http://archive.apache.org/dist/hive/ 2、安装mysql 参考:https://www.cnblogs.com/jpxjx/p/16817724.html 3、上传安装包并解压 tar zxvf apache-hive-3.1.2-bin.t ......
Hive3 Hive

hbase快速入门

HBase是一个基于Hadoop的开源、分布式、非关系型数据库,它是Google Bigtable的开源实现之一。 HBase旨在处理具有非常大规模的数据集,这些数据集通常存储在Hadoop分布式文件系统(HDFS)中,并且需要实时访问和随机读写。 HBase的数据模型类似于Google Bigta ......
hbase

hive快速入门

Hive是一个基于Hadoop的数据仓库工具,它提供了类似于SQL的查询语言(HiveQL)来对存储在Hadoop分布式文件系统(HDFS)中的数据进行查询和分析。 Hive的目标是使得数据分析人员可以使用熟悉的SQL语言进行数据分析,而无需编写MapReduce程序。 Hive将查询语句翻译为Ma ......
hive

Hive学习记录

数仓概念 数据仓库(英语:Data Warehouse,简称数仓、DW),是一个用于存储、分析、报告的数据系统。 数据仓库的目的是构建面向分析的集成化数据环境,分析结果为企业提供决策支持(Decision Support) SQL语法分类 SQL主要语法分为两个部分:数据定义语言 (DDL)和数据操 ......
Hive

Hbase 检索成绩在80到90之间的同学姓名

在 hbase 中,一般都转成字符串,然后再保存 类似 价格、年龄 这类数字,前面补 0,转成定长的,再保存,这样便于过滤 原因是Hbase的四种过滤器都是字符串比较,不能直接进行数字类型比较 ......
姓名 成绩 之间 同学 Hbase