emr-hive ranger hive emr

Hive

因为传统数仓的不足,大家希望使用上分布式存储,也就是HDFS。然而使用HDFS后发现,基于数据库的数据仓库用SQL就能做查询,现在换到HDFS上面,只能用Mapreduce任务去做分析。给分析代码极大的不便,因此需要一个框架,使用SQL来做HDFS的查询。Hive正是基于类似SQL的语言完成对hdf ......
Hive

Hive中json格式字段清洗与提取

废话不多说,直接上案例 如下是某json字段的查询结果,可以看出它是一个json数组 select sales_price from order_goods where order_number = 'R1001'; -- 结果: [{"threshold_number":1,"group_id": ......
字段 格式 Hive json

作业6 数据仓库Hive

请在以下两题中任选一题作答,其中第一题编程实践满分30,第二题应用调查满分20(1)编程实践:参考教程https://dblab.xmu.edu.cn/blog/4309/,编写HiveQL语句实现WordCount算法,在input文件夹中创建两个测试文件file1.txt和file2.txt,然 ......
仓库 数据 Hive

Hive学习笔记:nvl和coalesce函数的区别

nvl 函数和 coalesce 函数都是用来处理空值的函数,但略有不同。 注意:非 NULL 值为 NULL, 如果是'',' ', 'null', 'NULL'等视为字符串,返回参数本身。 一、nvl函数 nvl 只能处理2个参数,如果第1个不是 null, 则返回第1个参数,否则返回第2个参数 ......
函数 coalesce 笔记 Hive nvl

【1】基于docker搭建hadoop+hive+spark+hbase+zookeeper+scale集群

1、设置主机上的虚拟缓存 当本地内存不足时,可以使用虚拟内存将一些内存数据转移到硬盘上,从而扩展计算机的内存容量。这样可以让计算机运行更复杂、更占用内存的程序,不会出现内存不足的情况。减轻物理存储器不足的压力,设置虚拟内存可以在内存不够的情况下将缓存一时放在硬盘上,解决内存不足问题。 通过虚拟内存, ......
集群 zookeeper docker hadoop hbase

基于docker容器,搭建hadoop+spark+hive+hbase+Zookeeper Scala集群

1.安装Docker和Docker Compose 2.下载镜像 docker pull bde2020/hadoop-base:2.0.0-hadoop3.2.1-java8 docker pull bde2020/hadoop-namenode:2.0.0-hadoop3.2.1-java8 d ......
集群 容器 Zookeeper docker hadoop

Hive学习笔记:多列求最大值、最小值

一、最大值 当在 Hive 中需要对多列数据求最大值时,可以使用函数 greatest(a, b, c, d) 实现。 select greatest(a, b, c) from ( select 10 as a, 20 as b, 30 as c ) dd; -- 结果:30 举个具体栗子:计算用 ......
最大值 笔记 Hive

添加Kafka的Ranger访问权限策略

原文链接:https://support.huaweicloud.com/intl/zh-cn/eu-west-0-cmpntguide-lts-mrs/mrs_01_1861.html 操作场景 Ranger管理员可通过Ranger为Kafka用户配置Kafka主题的读、写、管理权限以及集群的管理 ......
权限 策略 Ranger Kafka

报错Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create Spark client for Spark session 768047b9-c7f7-459f-9220-5d8d7bdabefe)

在执行hive on spark的时候 上面的错误可能有以下几种问题: 1.版本问题 不匹配 2.时间参数问题 设置的参数太小了 3.在hive-site.xml文件中没有配置spark 的home 我的问题属于第一个问题导致没有跑成功 当时也在想是不是内存出现了问题 ......

Unexpected character '=' (code 61); expected a semi-colon after the reference for entity 'useSSL' at [row,col,system-id]: [8,75,"file:/usr/bigdata/hive-3.1.3/conf/hive-site.xml"]

在初始化hive时报错,出现如下问题: 错误原因:hive-site.xml 配置文件中,数据库的地址带有 & 符号。 将数据库地址中的 & 符号调整为 &,详情如下: 再次初始化hive,执行结果如下: ......
39 hive quot Unexpected semi-colon

hive表加字段

hive原表结构 hive表加新字段interface_type alter table test.test_table add columns(interface_type string); hive表新表结构 ......
字段 hive

dremio hive 连接

dremio 对于hive 的连接实际上有两种方法,一种使用的是hive 的meta store ,一种是使用的hive jdbc server第一中是官方支持的,第二种官方缺少直接的支持,需要自己开发相关的arp 扩展 一些参考实现 cdata 目前提供了一个开源实现,但是jdbc 驱动使用的是自 ......
dremio hive

Hive中的regexp_replace函数

正则表达式替换函数:regexp_replace 语法:regexp_replace(string subject,string pattern,string str) subject为被替换的字符串,pattern为正则表达式,str为替换正则表达式的字符串(将字符串subject中符合正则表达式 ......
regexp_replace 函数 replace regexp Hive

pyspark 连接hive

pyspark连接hive 想要spark能够连接上hive,就需要将hive的一些配置文件放到spark中,让spark可以通过配置文件中的metastore.uris找到hive的元数据库,从而访问hive. 1.将hive的conf文件夹下的hive-site.xml,复制到本地spark的c ......
pyspark hive

大数据Hive词频统计作业总结及出现的权限问题解决(每日总结10.18)

学习网站链接Hive3.1.3安装和使用指南_厦大数据库实验室博客 (xmu.edu.cn) 下面是我自己的作业完成过程 1.首先要启动hdfs集群和hive数据库 2.创建并导入文件 进入到hadop目录下 在命令行窗口输入下面的命令: hadoop fs -mkdir /input1 在电脑桌面 ......
词频 权限 数据 问题 10.18

HBase-通过外部表将Hive数据写入到HBase

a) 准备测试数据 这里准备的csv文件data_test.csv,内容没用''包裹,逗号作为列分隔符 171301,燕青,男,27,发展部 171207,武松,男,39,开发部 171307,李逵,男,41,开发部 320812,宋江,男,45,战略部 321009,顾大嫂,女,38,后勤部 17 ......
HBase 数据 Hive

关于Hive的常用HiveQL操作

创建hive数据仓库: create table docs(line string); 从hdfs上传文件到数据库: load data inpath 'file:///usr/local/hadoop/input' overwrite into table docs; 根据词汇查询词汇数量: cr ......
常用 HiveQL Hive

使用go语言开发hive导出工具

前言 新版 hive 提供了 beeline 工具,可以执行SQL并导出数据,不过操作还是有点复杂的,团队里有些同学不会Linux的基本操作,所以我花了亿点点时间写了个交互式的命令行工具方便使用。 效果 命令行工具,就是这么朴实无华。 探索过程 一开始是打算用 bash 脚本,结果发现根本不会写,b ......
语言 工具 hive

hive词频统计

1.首先在hadoop目录下创建一个input文件夹,并在文件夹里建立两个txt文件并写入信息 第三行的echo命令会讲引号里的内容写入后边的文件,文件不存在的话会自动创建一个. 2.启动hive,创建一个名为docs的表,只含一列,列名为line,类型为string 3.将第一步input文件夹中 ......
词频 hive

终于知道如何利用hive的日期转换函数进行日期格式的清洗啦~(之前用的外部数据清洗)

1、创建合适格式的表result10 create table result10( ip String, time1 String, day String, traffic String, type String, id String) row format delimited fields ter ......
日期 函数 格式 数据 hive

基于Docker搭建Hadoop+Hive

基于Docker搭建Hadoop+Hive 本文主要是照搬这篇文章的https://zhuanlan.zhihu.com/p/242658224,但是这篇文章有一些细节配置没有讲清楚,这里对其进行完善 零、环境信息 电脑配置 Ubuntu 20.04.6 LTS (Focal Fossa) 5.15 ......
Docker Hadoop Hive

hive清洗数据sql语句报错

在本次的测试中sql语句清洗数据时下面,同时观察第一个语句中Date为啥要加这个单引号,原因是Date是sql语句里的可以说是一个关键字的存在,所以必须要单独引用起来以示区别 insert overwrite table article select ip as ip ,`Date` as `Dat ......
语句 数据 hive sql

hive大数据测试(时间数据清洗UDF打包到hive中调用自定义函数,hive表数据导出到本机)

1.数据清洗 pom依赖: <properties> <maven.compiler.source>8</maven.compiler.source> <maven.compiler.target>8</maven.compiler.target> <project.build.sourceEnco ......
数据 hive 函数 时间 UDF

《Hive性能优化实战》读书笔记

写在前面 《Hive性能优化实战》是比较不错的一本hive技术书籍,介绍了hive相关的一些技术,一些基本的理论,看完能对hive优化方面略有了解; 但有俩地方每种不足,一是没有那么多的实际的综合情况分析优化案例,这个有点可惜,要是多几个案例就很不错了;而是执行计划部分大多数 整本书最吸引人的地方在 ......
实战 性能 笔记 Hive

Hive-服务启动和停止命令

1、启动命令 #!/bin/bash nohup hive --service metastore >> $HIVE_HOME/logs/metasotre.log 2>&1 & nohup hive --service hiveserver2 >> $HIVE_HOME/logs/hiveserv ......
命令 Hive

虚拟机如何打开hive数据库

1、启动hodoop 2.、启动 hive的服务: metastore cd /export/server/apache-hive-3.1.2-bin/bin ./hive --service metastore 后台启动 nohup ./hive --service metastore & 3、 ......
数据库 数据 hive

hive数据清洗,导入mysql

-- 用于清洗的表create table data1( `ip` string comment '城市', `date1` string comment '日期', `day` string comment '天数', `traffic` double comment '流量', `type` s ......
数据 mysql hive

转换日期数据的格式函数(hive)

1、转换成标准格式--from_unixtime和unix_timestamp--默认情况下转成yyyy-MM-dd:HH:mm:ss select from_unixtime(unix_timestamp('16/08/2018','dd/MM/yyyy')); 2、原文件字段含有英文--月份英文 ......
函数 日期 格式 数据 hive

hive数据库指定删除首行数据

在我们将csv文件或者txt文件导入到虚拟机本地时,要是不提前将首行的数据指引删除,就会跟随着我们的期望数据显示在hive的数据库里面, 上次测试,我就是直接在csv文件里面删除了,但是运行起来确实稍微慢了一点,要是数据条数再多一些,就很难直接在根文件里面进行删除,所以,我找到了一个新的方法, 来排 ......
数据 数据库 hive

【大数据】FindBi配置Hive

安装FineBi 1:百度云链接:https://pan.baidu.com/s/1u9QHGzo9v9Wcrn5iJU4hQg?pwd=sotc (这里安装的时候你可能需要登录到官网注册获取激活码)https://www.finebi.com/ 2: 将Hive驱动包放入指定目录 D:\FineB ......
数据 FindBi Hive