hive etl

hive3.0新特性

hive3.0新特性： 1、不再支持Mr.取而用Tez查询引警且支持两种查询模式.Container 和 LLAP 2、Hive CLI不再支持(被beeline取代) 3、SQL Standard Authorization 不再支持，且默认建的表就已经是ACID表。 4、支持“批查询”(TEZ) ......

特性 hive3 hive更新时间 2023-11-09

0.Hive+MySQL安装记录

1.确定安装版本如何通过官网查找hadoop、hbase、hive版本兼容信息 2.安装流程大概 B站视频 3.安装mysql数据库 centos安装mysql8 check： tar命令配置文件（/etc/下）--/etc/profile mysql环境变量配置 mysql: error wh ......

MySQL Hive更新时间 2023-11-09

hive ACID事务得应用场景

Hive的ACID语义可以完成以下使用场景: 1、流数据的接入。许多用户都使用 Apache Flume, Apache Storm, or Apache Kafka 将流式数据导入Hadoop集群。这些工具都是每秒百万行级的数据写入，而Hive只能每十五分钟到一个小时添加一次分区。快速的增加分区 ......

场景事务 hive ACID更新时间 2023-11-09

Hive累积值、平均值、首尾值的计算学习

Hive窗口函数可以计算一定范围内、一定值域内、或者一段时间内的累积和以及移动平均值等；可以结合聚集函数SUM() 、AVG()等使用；可以结合FIRST_VALUE() 和LAST_VALUE()，返回窗口的第一个和最后一个值。如果只使用partition by子句,未指定order by的话, ......

首尾平均值 Hive更新时间 2023-11-07

hive快速入门

hive快速入门一、简介 hive是facebook，用于解决海量结构化数据的统计分析，现在属于apache软件基金会。hive是一个构建在hadoop之上的数据分析工具，hive没有存储数据的能力只有使用数据的能力，底层是由HDFS来提供数据存储，可以将结构化的数据映射为一张数据表，并且提供类似 ......

hive更新时间 2023-11-05

ETL工具kettle的妙用

以下为思路提供，因为涉及我的知识版权，所以不能完全公开具体的操作方法，只能提供大概思路，仅供参考，不构成任何买卖依据。一、先从APP开盘啦下载数据，以文本文件格式保存到本地盘。（至于如何下载，这个暂时不公开方法。）二、1.txt文件内容的格式，对应某一个热门板块，以方便后面用kettle ET ......

妙用工具 kettle ETL更新时间 2023-11-05

Finalshell给虚拟机安装JDK1.8，hadoop-3.3.3，hive3.1.2并配置环境

点击红框按钮，把下载好的jdk，hadoop，hive安装包上传到指定路径我的路径是/home/用户名/Downloads 查看上传文件 sudo tar -zxvf /home/hxf/Downloads/jdk-8u391-linux-x64.tar.gz -C /opt/module/ su ......

Finalshell 环境 hadoop hive3 JDK1更新时间 2023-11-04

Hadoop3.x和Hive3.x环境搭建

Hadoop3.3.6 创建hadoop用户 useradd hadoop su - hadoop ssh-keygen -t rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 0600 ~/.ssh/authorized_keys ......

Hadoop3 环境 Hadoop Hive3 Hive更新时间 2023-11-03

javaapi、spark、flink 创建Iceberg表，hive 和impala无法正常读取解决

spark、flink 创建Iceberg表中，元数据存储在hive 的meta_store,发现hive 或者impala无法正常读取报错。事实上解决方案是在spark 、flink 的SQL中执行语句: add iceberg相关引擎的runntime的jar;ALTER TABLE t SE ......

javaapi Iceberg impala flink spark更新时间 2023-11-02

Hive grouping函数

Grouping函数: 可以接受一列，返回0或1。如果列值为空，则返回1，非空则返回0。它只能在rollup和或cube函数中使用，因为在统计中显示“全部”的那一项统计值时，那一项的标签通常是空的，这时grouping就非常有用，还可以在grouping的基础上进行decode, case等进行美化 ......

函数 grouping Hive更新时间 2023-11-02

pyspark数据写入文件及数据库hive

原始数据如下 POD9_6ec8794bd3297048d6ef7b6dff7b8be1|#$2023-10-24|#$0833|#$#|#$#|#$99999999999|#$#|#$12345678912 POD9_352858578708f144bb166a77bad743f4|#$2023- ......

数据 pyspark 数据库文件 hive更新时间 2023-10-31

Hive

因为传统数仓的不足，大家希望使用上分布式存储，也就是HDFS。然而使用HDFS后发现，基于数据库的数据仓库用SQL就能做查询，现在换到HDFS上面，只能用Mapreduce任务去做分析。给分析代码极大的不便，因此需要一个框架，使用SQL来做HDFS的查询。Hive正是基于类似SQL的语言完成对hdf ......

Hive更新时间 2023-10-30

Hive中json格式字段清洗与提取

废话不多说，直接上案例如下是某json字段的查询结果，可以看出它是一个json数组 select sales_price from order_goods where order_number = 'R1001'; -- 结果： [{"threshold_number":1,"group_id": ......

字段格式 Hive json更新时间 2023-10-30

作业6 数据仓库Hive

请在以下两题中任选一题作答，其中第一题编程实践满分30，第二题应用调查满分20（1）编程实践：参考教程https://dblab.xmu.edu.cn/blog/4309/，编写HiveQL语句实现WordCount算法，在input文件夹中创建两个测试文件file1.txt和file2.txt，然 ......

仓库数据 Hive更新时间 2023-10-29

数据分享|SQL Server、Visual Studio、tableau对信贷风险数据ETL分析、数据立方体构建可视化

原文链接：https://tecdat.cn/?p=34085 原文出处：拓端数据部落公众号分析师：Zuyuan Wang 追求信贷规模的扩张，往往会导致贷款逾期率的不断增加，如何在当今社会运用数据识别用户特征进行风险管控成为了银行放贷的重点依据。解决方案任务/目标研究公司个人贷款的数据集， ......

数据立方体信贷风险 tableau更新时间 2023-10-28

ETL 是什么？不信你看不懂！--九五小庞

ETL，全称 Extract-Transform-Load，它是将大量的原始数据经过提取（extract）、转换（transform）、加载（load）到目标存储数据仓库的过程。ETL 虽然大部分应用在大数据领域，对小数据也可以经过这个过程的处理。理解 ETL ETL 是企业数据应用过程中的一个数 ......

ETL更新时间 2023-10-27

LightDB-ETL迁移工具常用问题排查

1、无法删除约束根据以下SQL查询oracle目标库，如果约束名称包含小写字母，则迁移工具无法删除，它默认是按照大写处理的。 SELECT ac1.constraint_name, DBMS_METADATA.get_ddl('REF_CONSTRAINT', ac1.constraint_nam ......

LightDB-ETL 常用 LightDB 工具问题更新时间 2023-10-26

Hive学习笔记：nvl和coalesce函数的区别

nvl 函数和 coalesce 函数都是用来处理空值的函数，但略有不同。注意：非 NULL 值为 NULL，如果是''，' '， 'null'， 'NULL'等视为字符串，返回参数本身。一、nvl函数 nvl 只能处理2个参数，如果第1个不是 null，则返回第1个参数，否则返回第2个参数 ......

函数 coalesce 笔记 Hive nvl更新时间 2023-10-25

【1】基于docker搭建hadoop+hive+spark+hbase+zookeeper+scale集群

1、设置主机上的虚拟缓存当本地内存不足时，可以使用虚拟内存将一些内存数据转移到硬盘上，从而扩展计算机的内存容量。这样可以让计算机运行更复杂、更占用内存的程序，不会出现内存不足的情况。减轻物理存储器不足的压力，设置虚拟内存可以在内存不够的情况下将缓存一时放在硬盘上，解决内存不足问题。通过虚拟内存， ......

集群 zookeeper docker hadoop hbase更新时间 2023-10-24

基于docker容器，搭建hadoop+spark+hive+hbase+Zookeeper Scala集群

1.安装Docker和Docker Compose 2.下载镜像 docker pull bde2020/hadoop-base:2.0.0-hadoop3.2.1-java8 docker pull bde2020/hadoop-namenode:2.0.0-hadoop3.2.1-java8 d ......

集群容器 Zookeeper docker hadoop更新时间 2023-10-24

Hive学习笔记：多列求最大值、最小值

一、最大值当在 Hive 中需要对多列数据求最大值时，可以使用函数 greatest(a, b, c, d) 实现。 select greatest(a, b, c) from ( select 10 as a, 20 as b, 30 as c ) dd; -- 结果：30 举个具体栗子：计算用 ......

最大值笔记 Hive更新时间 2023-10-23

报错Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create Spark client for Spark session 768047b9-c7f7-459f-9220-5d8d7bdabefe)

在执行hive on spark的时候上面的错误可能有以下几种问题： 1.版本问题不匹配 2.时间参数问题设置的参数太小了 3.在hive-site.xml文件中没有配置spark 的home 我的问题属于第一个问题导致没有跑成功当时也在想是不是内存出现了问题 ......

Failed Spark HiveException exception 7bdabefe更新时间 2023-10-22

Unexpected character '=' (code 61); expected a semi-colon after the reference for entity 'useSSL' at [row,col,system-id]: [8,75,"file:/usr/bigdata/hive-3.1.3/conf/hive-site.xml"]

在初始化hive时报错，出现如下问题：错误原因：hive-site.xml 配置文件中，数据库的地址带有 & 符号。将数据库地址中的 & 符号调整为 &，详情如下：再次初始化hive，执行结果如下： ......

39 hive quot Unexpected semi-colon更新时间 2023-10-21

共449篇 :4/15页 首页上一页1234567下一页尾页

526互联