Hive

Hive学习笔记:nvl和coalesce函数的区别

nvl 函数和 coalesce 函数都是用来处理空值的函数,但略有不同。 注意:非 NULL 值为 NULL, 如果是'',' ', 'null', 'NULL'等视为字符串,返回参数本身。 一、nvl函数 nvl 只能处理2个参数,如果第1个不是 null, 则返回第1个参数,否则返回第2个参数 ......
函数 coalesce 笔记 Hive nvl

【1】基于docker搭建hadoop+hive+spark+hbase+zookeeper+scale集群

1、设置主机上的虚拟缓存 当本地内存不足时,可以使用虚拟内存将一些内存数据转移到硬盘上,从而扩展计算机的内存容量。这样可以让计算机运行更复杂、更占用内存的程序,不会出现内存不足的情况。减轻物理存储器不足的压力,设置虚拟内存可以在内存不够的情况下将缓存一时放在硬盘上,解决内存不足问题。 通过虚拟内存, ......
集群 zookeeper docker hadoop hbase

基于docker容器,搭建hadoop+spark+hive+hbase+Zookeeper Scala集群

1.安装Docker和Docker Compose 2.下载镜像 docker pull bde2020/hadoop-base:2.0.0-hadoop3.2.1-java8 docker pull bde2020/hadoop-namenode:2.0.0-hadoop3.2.1-java8 d ......
集群 容器 Zookeeper docker hadoop

Hive学习笔记:多列求最大值、最小值

一、最大值 当在 Hive 中需要对多列数据求最大值时,可以使用函数 greatest(a, b, c, d) 实现。 select greatest(a, b, c) from ( select 10 as a, 20 as b, 30 as c ) dd; -- 结果:30 举个具体栗子:计算用 ......
最大值 笔记 Hive

报错Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create Spark client for Spark session 768047b9-c7f7-459f-9220-5d8d7bdabefe)

在执行hive on spark的时候 上面的错误可能有以下几种问题: 1.版本问题 不匹配 2.时间参数问题 设置的参数太小了 3.在hive-site.xml文件中没有配置spark 的home 我的问题属于第一个问题导致没有跑成功 当时也在想是不是内存出现了问题 ......

Unexpected character '=' (code 61); expected a semi-colon after the reference for entity 'useSSL' at [row,col,system-id]: [8,75,"file:/usr/bigdata/hive-3.1.3/conf/hive-site.xml"]

在初始化hive时报错,出现如下问题: 错误原因:hive-site.xml 配置文件中,数据库的地址带有 & 符号。 将数据库地址中的 & 符号调整为 &,详情如下: 再次初始化hive,执行结果如下: ......
39 hive quot Unexpected semi-colon

hive表加字段

hive原表结构 hive表加新字段interface_type alter table test.test_table add columns(interface_type string); hive表新表结构 ......
字段 hive

dremio hive 连接

dremio 对于hive 的连接实际上有两种方法,一种使用的是hive 的meta store ,一种是使用的hive jdbc server第一中是官方支持的,第二种官方缺少直接的支持,需要自己开发相关的arp 扩展 一些参考实现 cdata 目前提供了一个开源实现,但是jdbc 驱动使用的是自 ......
dremio hive

Hive中的regexp_replace函数

正则表达式替换函数:regexp_replace 语法:regexp_replace(string subject,string pattern,string str) subject为被替换的字符串,pattern为正则表达式,str为替换正则表达式的字符串(将字符串subject中符合正则表达式 ......
regexp_replace 函数 replace regexp Hive

pyspark 连接hive

pyspark连接hive 想要spark能够连接上hive,就需要将hive的一些配置文件放到spark中,让spark可以通过配置文件中的metastore.uris找到hive的元数据库,从而访问hive. 1.将hive的conf文件夹下的hive-site.xml,复制到本地spark的c ......
pyspark hive

大数据Hive词频统计作业总结及出现的权限问题解决(每日总结10.18)

学习网站链接Hive3.1.3安装和使用指南_厦大数据库实验室博客 (xmu.edu.cn) 下面是我自己的作业完成过程 1.首先要启动hdfs集群和hive数据库 2.创建并导入文件 进入到hadop目录下 在命令行窗口输入下面的命令: hadoop fs -mkdir /input1 在电脑桌面 ......
词频 权限 数据 问题 10.18

HBase-通过外部表将Hive数据写入到HBase

a) 准备测试数据 这里准备的csv文件data_test.csv,内容没用''包裹,逗号作为列分隔符 171301,燕青,男,27,发展部 171207,武松,男,39,开发部 171307,李逵,男,41,开发部 320812,宋江,男,45,战略部 321009,顾大嫂,女,38,后勤部 17 ......
HBase 数据 Hive

关于Hive的常用HiveQL操作

创建hive数据仓库: create table docs(line string); 从hdfs上传文件到数据库: load data inpath 'file:///usr/local/hadoop/input' overwrite into table docs; 根据词汇查询词汇数量: cr ......
常用 HiveQL Hive

使用go语言开发hive导出工具

前言 新版 hive 提供了 beeline 工具,可以执行SQL并导出数据,不过操作还是有点复杂的,团队里有些同学不会Linux的基本操作,所以我花了亿点点时间写了个交互式的命令行工具方便使用。 效果 命令行工具,就是这么朴实无华。 探索过程 一开始是打算用 bash 脚本,结果发现根本不会写,b ......
语言 工具 hive

hive词频统计

1.首先在hadoop目录下创建一个input文件夹,并在文件夹里建立两个txt文件并写入信息 第三行的echo命令会讲引号里的内容写入后边的文件,文件不存在的话会自动创建一个. 2.启动hive,创建一个名为docs的表,只含一列,列名为line,类型为string 3.将第一步input文件夹中 ......
词频 hive

终于知道如何利用hive的日期转换函数进行日期格式的清洗啦~(之前用的外部数据清洗)

1、创建合适格式的表result10 create table result10( ip String, time1 String, day String, traffic String, type String, id String) row format delimited fields ter ......
日期 函数 格式 数据 hive

基于Docker搭建Hadoop+Hive

基于Docker搭建Hadoop+Hive 本文主要是照搬这篇文章的https://zhuanlan.zhihu.com/p/242658224,但是这篇文章有一些细节配置没有讲清楚,这里对其进行完善 零、环境信息 电脑配置 Ubuntu 20.04.6 LTS (Focal Fossa) 5.15 ......
Docker Hadoop Hive

hive清洗数据sql语句报错

在本次的测试中sql语句清洗数据时下面,同时观察第一个语句中Date为啥要加这个单引号,原因是Date是sql语句里的可以说是一个关键字的存在,所以必须要单独引用起来以示区别 insert overwrite table article select ip as ip ,`Date` as `Dat ......
语句 数据 hive sql

hive大数据测试(时间数据清洗UDF打包到hive中调用自定义函数,hive表数据导出到本机)

1.数据清洗 pom依赖: <properties> <maven.compiler.source>8</maven.compiler.source> <maven.compiler.target>8</maven.compiler.target> <project.build.sourceEnco ......
数据 hive 函数 时间 UDF

《Hive性能优化实战》读书笔记

写在前面 《Hive性能优化实战》是比较不错的一本hive技术书籍,介绍了hive相关的一些技术,一些基本的理论,看完能对hive优化方面略有了解; 但有俩地方每种不足,一是没有那么多的实际的综合情况分析优化案例,这个有点可惜,要是多几个案例就很不错了;而是执行计划部分大多数 整本书最吸引人的地方在 ......
实战 性能 笔记 Hive

Hive-服务启动和停止命令

1、启动命令 #!/bin/bash nohup hive --service metastore >> $HIVE_HOME/logs/metasotre.log 2>&1 & nohup hive --service hiveserver2 >> $HIVE_HOME/logs/hiveserv ......
命令 Hive

虚拟机如何打开hive数据库

1、启动hodoop 2.、启动 hive的服务: metastore cd /export/server/apache-hive-3.1.2-bin/bin ./hive --service metastore 后台启动 nohup ./hive --service metastore & 3、 ......
数据库 数据 hive

hive数据清洗,导入mysql

-- 用于清洗的表create table data1( `ip` string comment '城市', `date1` string comment '日期', `day` string comment '天数', `traffic` double comment '流量', `type` s ......
数据 mysql hive

转换日期数据的格式函数(hive)

1、转换成标准格式--from_unixtime和unix_timestamp--默认情况下转成yyyy-MM-dd:HH:mm:ss select from_unixtime(unix_timestamp('16/08/2018','dd/MM/yyyy')); 2、原文件字段含有英文--月份英文 ......
函数 日期 格式 数据 hive

hive数据库指定删除首行数据

在我们将csv文件或者txt文件导入到虚拟机本地时,要是不提前将首行的数据指引删除,就会跟随着我们的期望数据显示在hive的数据库里面, 上次测试,我就是直接在csv文件里面删除了,但是运行起来确实稍微慢了一点,要是数据条数再多一些,就很难直接在根文件里面进行删除,所以,我找到了一个新的方法, 来排 ......
数据 数据库 hive

【大数据】FindBi配置Hive

安装FineBi 1:百度云链接:https://pan.baidu.com/s/1u9QHGzo9v9Wcrn5iJU4hQg?pwd=sotc (这里安装的时候你可能需要登录到官网注册获取激活码)https://www.finebi.com/ 2: 将Hive驱动包放入指定目录 D:\FineB ......
数据 FindBi Hive

【大数据】HIVE大全

HIVE 内部表与外部表的区别 # HIVE储存数据位置 [hadoop@test1 hive]$ hadoop fs -ls /user/hive/warehouse/testhive.db/info/ Found 1 items -rw-r--r-- 3 hadoop supergroup .. ......
数据 大全 HIVE

【大数据】HIVE部署(文档版本)

Mysql 安装配置远程登录 # 更新密钥 rpm --import https://repo.mysql.com/RPM-GPG-KEY-mysql-2022 # 安装Mysql yum库 rpm -Uvh http://repo.mysql.com//mysql57-community-rele ......
版本 文档 数据 HIVE

hive知识点散记

在不切换数据库的前提下查询某一数据库下的所有表 show tables in 数据库名; 查询显示某一张表的元数据信息 desc formatted 表名; 查询当前数据库名称 select current_databases(); 对查询结果进行去重 select distinct cname f ......
散记 知识点 知识 hive

LINUX:FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask

如图,问题表现为linux中可直接通过hive进行数据插入 但在通过datagrip却更改不了 此时,可能时yarn的运行分配的内存较少,或堆内存溢出。在yarn-site.xml中更改,以及mapred-site.xml中更改,完成。 yarn的 <property> <name>yarn.sch ......
MapRedTask Execution FAILED return apache