hadoop3 hadoop hive3 hive

0.Hive+MySQL安装记录

1.确定安装版本 如何通过官网查找hadoop、hbase、hive版本兼容信息 2.安装流程大概 B站视频 3.安装mysql数据库 centos安装mysql8 check: tar命令 配置文件(/etc/下)--/etc/profile mysql环境变量配置 mysql: error wh ......
MySQL Hive

hive ACID事务得应用场景

Hive的ACID语义可以完成以下使用场景: 1、流数据的接入。许多用户都使用 Apache Flume, Apache Storm, or Apache Kafka 将流式数据导入Hadoop集群。 这些工具都是每秒百万行级的数据写入,而Hive只能每十五分钟到一个小时添加一次分区。快速的增加分区 ......
场景 事务 hive ACID

20231107学习总结-大型数据库-实验1.熟悉常用的Linux操作和Hadoop操作

实验1 熟悉常用的Linux操作和Hadoop操作 1.实验目的 Hadoop运行在Linux系统上,因此,需要学习实践一些常用的Linux命令。本实验旨在熟悉常用的Linux操作和Hadoop操作,为顺利开展后续其他实验奠定基础。 2.实验平台 (1)操作系统:Linux(建议Ubuntu16.0 ......
20231107 常用 数据库 数据 Hadoop

Hive累积值、平均值、首尾值的计算学习

Hive窗口函数可以计算一定范围内、一定值域内、或者一段时间内的累积和以及移动平均值等;可以结合聚集函数SUM() 、AVG()等使用;可以结合FIRST_VALUE() 和LAST_VALUE(),返回窗口的第一个和最后一个值。 如果只使用partition by子句,未指定order by的话, ......
首尾 平均值 Hive

Hadoop:Yarn资源调度

1、Yarn是什么? Apache Hadoop YARN (Yet Another Resource Negotiator 另一种资源协调者)是一种新的Hadoop资源管理器,提供一个通用资源管理系统和调度平台,可为上层应用提供统一的资源管理和调度。可以把Hadoop YARN理解为相当于一个分布 ......
Hadoop 资源 Yarn

hive快速入门

hive快速入门 一、简介 hive是facebook,用于解决海量结构化数据的统计分析,现在属于apache软件基金会。hive是一个构建在hadoop之上的数据分析工具,hive没有存储数据的能力只有使用数据的能力,底层是由HDFS来提供数据存储,可以将结构化的数据映射为一张数据表,并且提供类似 ......
hive

Hadoop-3.3.3分布式集群的文件配置,启动hadoop历史服务和启动日志聚集

一、分布式集群的文件配置 涉及$HADOOP_HOME/etc/hadoop路径下的5个文件 workers、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml 首先修改workers 进入$HADOOP_HOME/etc/hadoop ......
分布式 集群 文件 Hadoop hadoop

云计算-hadoop的安装(书接上回+分布式搭建)

书接上回,这次来进行分布式集群的搭建。 执行命令:echo $JAVA_HOME 查看路径,我的路径如图所示: 然后在/usr/local/hadoop目录下,执行命令gedit ./etc/hadoop/hadoop-env.sh 打开文本,然后再第一行添加刚刚的路径,如图所示: 因为之前一节咱们 ......
分布式 hadoop

hadoop 将nn节点的环境配置同步到dn节点

使用scp命令克隆配置 输入 sudo scp -r jdk1.8.0_391/ hxf@slaver2:/opt/module 报错ssh: Could not resolve hostname hxf: Temporary failure in name resolution lost conn ......
节点 环境 hadoop

Finalshell给虚拟机安装JDK1.8,hadoop-3.3.3,hive3.1.2并配置环境

点击红框按钮,把下载好的jdk,hadoop,hive安装包上传到指定路径 我的路径是/home/用户名/Downloads 查看上传文件 sudo tar -zxvf /home/hxf/Downloads/jdk-8u391-linux-x64.tar.gz -C /opt/module/ su ......
Finalshell 环境 hadoop hive3 JDK1

Hadoop3.x和Hive3.x环境搭建

Hadoop3.3.6 创建hadoop用户 useradd hadoop su - hadoop ssh-keygen -t rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 0600 ~/.ssh/authorized_keys ......
Hadoop3 环境 Hadoop Hive3 Hive

javaapi、spark、flink 创建Iceberg表,hive 和impala无法正常读取解决

spark、flink 创建Iceberg表中,元数据存储在hive 的meta_store,发现hive 或者impala无法正常读取报错。事实上解决方案是 在spark 、flink 的SQL中执行语句: add iceberg相关引擎的runntime的jar;ALTER TABLE t SE ......
javaapi Iceberg impala flink spark

Hive grouping函数

Grouping函数: 可以接受一列,返回0或1。如果列值为空,则返回1,非空则返回0。它只能在rollup和或cube函数中使用,因为在统计中显示“全部”的那一项统计值时,那一项的标签通常是空的,这时grouping就非常有用,还可以在grouping的基础上进行decode, case等进行美化 ......
函数 grouping Hive

hadoop 基础学习

......
基础 hadoop

hadoop 基础组件详解

......
组件 基础 hadoop

pyspark数据写入文件及数据库hive

原始数据如下 POD9_6ec8794bd3297048d6ef7b6dff7b8be1|#$2023-10-24|#$0833|#$#|#$#|#$99999999999|#$#|#$12345678912 POD9_352858578708f144bb166a77bad743f4|#$2023- ......
数据 pyspark 数据库 文件 hive

hadoop初体验1——官方案例pi值计算

1.执行命令 [hadoop@namenode mapreduce]$ hadoop jar hadoop-mapreduce-examples-3.3.6.jar pi 2 2 hadoop jarHadoop jar命令 hadoop-mapreduce-examples-3.3.6.jar程序 ......
案例 官方 hadoop

hadoop初体验2——官方案例wordcount

1.命令 [hadoop@namenode mapreduce]$ hadoop jar hadoop-mapreduce-examples-3.3.6.jar wordcount /wordcount/input /wordcount/output 执行命令hadoop jar hadoop-ma ......
wordcount 案例 官方 hadoop

Hive

因为传统数仓的不足,大家希望使用上分布式存储,也就是HDFS。然而使用HDFS后发现,基于数据库的数据仓库用SQL就能做查询,现在换到HDFS上面,只能用Mapreduce任务去做分析。给分析代码极大的不便,因此需要一个框架,使用SQL来做HDFS的查询。Hive正是基于类似SQL的语言完成对hdf ......
Hive

Hadoop三大组件(HDFS,MapReduce,Yarn)

1、HDFS HDFS是Hadoop分布式文件系统。一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器,管理文件系统的命名空间和客户端对文件的访问操作;集群中的DataNode管理存储的数据。 2、MapReduce MapReduce是一个软件 ......
组件 MapReduce 三大 Hadoop HDFS

window10安装单机hadoop

一、配置jdk 默认已配置 二、下载hadoop3.2.2 http://archive.apache.org/dist/hadoop/common/hadoop-3.2.2/ 三、下载hadoop-winutils https://github.com/cdarlint/winutils 下载后将 ......
单机 window hadoop 10

Hive中json格式字段清洗与提取

废话不多说,直接上案例 如下是某json字段的查询结果,可以看出它是一个json数组 select sales_price from order_goods where order_number = 'R1001'; -- 结果: [{"threshold_number":1,"group_id": ......
字段 格式 Hive json

作业6 数据仓库Hive

请在以下两题中任选一题作答,其中第一题编程实践满分30,第二题应用调查满分20(1)编程实践:参考教程https://dblab.xmu.edu.cn/blog/4309/,编写HiveQL语句实现WordCount算法,在input文件夹中创建两个测试文件file1.txt和file2.txt,然 ......
仓库 数据 Hive

云计算-hadoop的安装

云计算的课程,主要还是要梳理逻辑(尽管我不是做这个方向的,但是课程还是要好好完成!) 前提: 安装好虚拟机VirtualBox,并且下载好Ubuntu的光盘映像文件。 文章思路: 1.配环境(SSH免密码登录,JAVA环境) 2.配Hadoop(下载包,配置相应的环境) 3.运行(感受一下实际例子) ......
hadoop

Hadoop-大数据组件版本号查看

1.操作系统 cat /etc/redhat-release ; 2.JDK java -version 3.SCALA scala --version 4.MySQL mysql --version 5.Zookeeper ps -ef | grep -E “zookeeper-.*.jar” 6 ......
组件 版本 数据 Hadoop

Hive学习笔记:nvl和coalesce函数的区别

nvl 函数和 coalesce 函数都是用来处理空值的函数,但略有不同。 注意:非 NULL 值为 NULL, 如果是'',' ', 'null', 'NULL'等视为字符串,返回参数本身。 一、nvl函数 nvl 只能处理2个参数,如果第1个不是 null, 则返回第1个参数,否则返回第2个参数 ......
函数 coalesce 笔记 Hive nvl

【1】基于docker搭建hadoop+hive+spark+hbase+zookeeper+scale集群

1、设置主机上的虚拟缓存 当本地内存不足时,可以使用虚拟内存将一些内存数据转移到硬盘上,从而扩展计算机的内存容量。这样可以让计算机运行更复杂、更占用内存的程序,不会出现内存不足的情况。减轻物理存储器不足的压力,设置虚拟内存可以在内存不够的情况下将缓存一时放在硬盘上,解决内存不足问题。 通过虚拟内存, ......
集群 zookeeper docker hadoop hbase

基于docker容器,搭建hadoop+spark+hive+hbase+Zookeeper Scala集群

1.安装Docker和Docker Compose 2.下载镜像 docker pull bde2020/hadoop-base:2.0.0-hadoop3.2.1-java8 docker pull bde2020/hadoop-namenode:2.0.0-hadoop3.2.1-java8 d ......
集群 容器 Zookeeper docker hadoop

Hive学习笔记:多列求最大值、最小值

一、最大值 当在 Hive 中需要对多列数据求最大值时,可以使用函数 greatest(a, b, c, d) 实现。 select greatest(a, b, c) from ( select 10 as a, 20 as b, 30 as c ) dd; -- 结果:30 举个具体栗子:计算用 ......
最大值 笔记 Hive

两台实体机器4个虚拟机节点的Hadoop集群搭建(Ubuntu版)

安装Ubuntu Linux元信息 两台机器,每台机器两台Ubuntu Ubuntu版本:ubuntu-22.04.3-desktop-amd64.iso 处理器数量2,每个处理器的核心数量2,总处理器核心数量4 单个虚拟机内存8192MB(8G),最大磁盘大小30G 参考链接 清华大学开源软件镜像 ......
节点 集群 实体 机器 Hadoop