Hive

Hive学习笔记：nvl和coalesce函数的区别

nvl 函数和 coalesce 函数都是用来处理空值的函数，但略有不同。注意：非 NULL 值为 NULL，如果是''，' '， 'null'， 'NULL'等视为字符串，返回参数本身。一、nvl函数 nvl 只能处理2个参数，如果第1个不是 null，则返回第1个参数，否则返回第2个参数 ......

函数 coalesce 笔记 Hive nvl更新时间 2023-10-25

【1】基于docker搭建hadoop+hive+spark+hbase+zookeeper+scale集群

1、设置主机上的虚拟缓存当本地内存不足时，可以使用虚拟内存将一些内存数据转移到硬盘上，从而扩展计算机的内存容量。这样可以让计算机运行更复杂、更占用内存的程序，不会出现内存不足的情况。减轻物理存储器不足的压力，设置虚拟内存可以在内存不够的情况下将缓存一时放在硬盘上，解决内存不足问题。通过虚拟内存， ......

集群 zookeeper docker hadoop hbase更新时间 2023-10-24

基于docker容器，搭建hadoop+spark+hive+hbase+Zookeeper Scala集群

1.安装Docker和Docker Compose 2.下载镜像 docker pull bde2020/hadoop-base:2.0.0-hadoop3.2.1-java8 docker pull bde2020/hadoop-namenode:2.0.0-hadoop3.2.1-java8 d ......

集群容器 Zookeeper docker hadoop更新时间 2023-10-24

Hive学习笔记：多列求最大值、最小值

一、最大值当在 Hive 中需要对多列数据求最大值时，可以使用函数 greatest(a, b, c, d) 实现。 select greatest(a, b, c) from ( select 10 as a, 20 as b, 30 as c ) dd; -- 结果：30 举个具体栗子：计算用 ......

最大值笔记 Hive更新时间 2023-10-23

报错Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create Spark client for Spark session 768047b9-c7f7-459f-9220-5d8d7bdabefe)

在执行hive on spark的时候上面的错误可能有以下几种问题： 1.版本问题不匹配 2.时间参数问题设置的参数太小了 3.在hive-site.xml文件中没有配置spark 的home 我的问题属于第一个问题导致没有跑成功当时也在想是不是内存出现了问题 ......

Failed Spark HiveException exception 7bdabefe更新时间 2023-10-22

Unexpected character '=' (code 61); expected a semi-colon after the reference for entity 'useSSL' at [row,col,system-id]: [8,75,"file:/usr/bigdata/hive-3.1.3/conf/hive-site.xml"]

在初始化hive时报错，出现如下问题：错误原因：hive-site.xml 配置文件中，数据库的地址带有 & 符号。将数据库地址中的 & 符号调整为 &，详情如下：再次初始化hive，执行结果如下： ......

39 hive quot Unexpected semi-colon更新时间 2023-10-21

hive表加字段

hive原表结构 hive表加新字段interface_type alter table test.test_table add columns(interface_type string); hive表新表结构 ......

字段 hive更新时间 2023-10-20

dremio hive 连接

dremio 对于hive 的连接实际上有两种方法，一种使用的是hive 的meta store ,一种是使用的hive jdbc server第一中是官方支持的，第二种官方缺少直接的支持，需要自己开发相关的arp 扩展一些参考实现 cdata 目前提供了一个开源实现，但是jdbc 驱动使用的是自 ......

dremio hive更新时间 2023-10-20

Hive中的regexp_replace函数

正则表达式替换函数：regexp_replace 语法：regexp_replace(string subject,string pattern,string str) subject为被替换的字符串，pattern为正则表达式，str为替换正则表达式的字符串（将字符串subject中符合正则表达式 ......

regexp_replace 函数 replace regexp Hive更新时间 2023-10-19

pyspark 连接hive

pyspark连接hive 想要spark能够连接上hive，就需要将hive的一些配置文件放到spark中，让spark可以通过配置文件中的metastore.uris找到hive的元数据库，从而访问hive. 1.将hive的conf文件夹下的hive-site.xml，复制到本地spark的c ......

pyspark hive更新时间 2023-10-19

大数据Hive词频统计作业总结及出现的权限问题解决（每日总结10.18）

学习网站链接Hive3.1.3安装和使用指南_厦大数据库实验室博客 (xmu.edu.cn) 下面是我自己的作业完成过程 1.首先要启动hdfs集群和hive数据库 2.创建并导入文件进入到hadop目录下在命令行窗口输入下面的命令： hadoop fs -mkdir /input1 在电脑桌面 ......

词频权限数据问题 10.18更新时间 2023-10-18

HBase-通过外部表将Hive数据写入到HBase

a) 准备测试数据这里准备的csv文件data_test.csv,内容没用''包裹,逗号作为列分隔符 171301,燕青,男,27,发展部 171207,武松,男,39,开发部 171307,李逵,男,41,开发部 320812,宋江,男,45,战略部 321009,顾大嫂,女,38,后勤部 17 ......

HBase 数据 Hive更新时间 2023-10-18

关于Hive的常用HiveQL操作

创建hive数据仓库： create table docs(line string); 从hdfs上传文件到数据库： load data inpath 'file:///usr/local/hadoop/input' overwrite into table docs; 根据词汇查询词汇数量： cr ......

常用 HiveQL Hive更新时间 2023-10-17

使用go语言开发hive导出工具

前言新版 hive 提供了 beeline 工具，可以执行SQL并导出数据，不过操作还是有点复杂的，团队里有些同学不会Linux的基本操作，所以我花了亿点点时间写了个交互式的命令行工具方便使用。效果命令行工具，就是这么朴实无华。探索过程一开始是打算用 bash 脚本，结果发现根本不会写，b ......

语言工具 hive更新时间 2023-10-17

hive词频统计

1.首先在hadoop目录下创建一个input文件夹,并在文件夹里建立两个txt文件并写入信息第三行的echo命令会讲引号里的内容写入后边的文件,文件不存在的话会自动创建一个. 2.启动hive,创建一个名为docs的表,只含一列,列名为line,类型为string 3.将第一步input文件夹中 ......

词频 hive更新时间 2023-10-17

终于知道如何利用hive的日期转换函数进行日期格式的清洗啦~（之前用的外部数据清洗）

1、创建合适格式的表result10 create table result10( ip String, time1 String, day String, traffic String, type String, id String) row format delimited fields ter ......

日期函数格式数据 hive更新时间 2023-10-15

基于Docker搭建Hadoop+Hive

基于Docker搭建Hadoop+Hive 本文主要是照搬这篇文章的https://zhuanlan.zhihu.com/p/242658224，但是这篇文章有一些细节配置没有讲清楚，这里对其进行完善零、环境信息电脑配置 Ubuntu 20.04.6 LTS (Focal Fossa) 5.15 ......

Docker Hadoop Hive更新时间 2023-10-13

hive清洗数据sql语句报错

在本次的测试中sql语句清洗数据时下面,同时观察第一个语句中Date为啥要加这个单引号，原因是Date是sql语句里的可以说是一个关键字的存在，所以必须要单独引用起来以示区别 insert overwrite table article select ip as ip ,`Date` as `Dat ......

语句数据 hive sql更新时间 2023-10-13

hive大数据测试（时间数据清洗UDF打包到hive中调用自定义函数，hive表数据导出到本机）

1.数据清洗 pom依赖： <properties> <maven.compiler.source>8</maven.compiler.source> <maven.compiler.target>8</maven.compiler.target> <project.build.sourceEnco ......

数据 hive 函数时间 UDF更新时间 2023-10-13

《Hive性能优化实战》读书笔记

写在前面《Hive性能优化实战》是比较不错的一本hive技术书籍，介绍了hive相关的一些技术，一些基本的理论，看完能对hive优化方面略有了解；但有俩地方每种不足，一是没有那么多的实际的综合情况分析优化案例，这个有点可惜，要是多几个案例就很不错了；而是执行计划部分大多数整本书最吸引人的地方在 ......

实战性能笔记 Hive更新时间 2023-10-13

Hive-服务启动和停止命令

1、启动命令 #！/bin/bash nohup hive --service metastore >> $HIVE_HOME/logs/metasotre.log 2>&1 & nohup hive --service hiveserver2 >> $HIVE_HOME/logs/hiveserv ......

命令 Hive更新时间 2023-10-13

虚拟机如何打开hive数据库

1、启动hodoop 2.、启动 hive的服务: metastore cd /export/server/apache-hive-3.1.2-bin/bin ./hive --service metastore 后台启动 nohup ./hive --service metastore & 3、 ......

数据库数据 hive更新时间 2023-10-13

hive数据清洗,导入mysql

-- 用于清洗的表create table data1( `ip` string comment '城市', `date1` string comment '日期', `day` string comment '天数', `traffic` double comment '流量', `type` s ......

数据 mysql hive更新时间 2023-10-12

转换日期数据的格式函数（hive）

1、转换成标准格式--from_unixtime和unix_timestamp--默认情况下转成yyyy-MM-dd:HH:mm:ss select from_unixtime(unix_timestamp('16/08/2018','dd/MM/yyyy')); 2、原文件字段含有英文--月份英文 ......

函数日期格式数据 hive更新时间 2023-10-12

hive数据库指定删除首行数据

在我们将csv文件或者txt文件导入到虚拟机本地时，要是不提前将首行的数据指引删除，就会跟随着我们的期望数据显示在hive的数据库里面，上次测试，我就是直接在csv文件里面删除了，但是运行起来确实稍微慢了一点，要是数据条数再多一些，就很难直接在根文件里面进行删除，所以，我找到了一个新的方法，来排 ......

数据数据库 hive更新时间 2023-10-11

【大数据】FindBi配置Hive

安装FineBi 1：百度云链接：https://pan.baidu.com/s/1u9QHGzo9v9Wcrn5iJU4hQg?pwd=sotc （这里安装的时候你可能需要登录到官网注册获取激活码）https://www.finebi.com/ 2：将Hive驱动包放入指定目录 D:\FineB ......

数据 FindBi Hive更新时间 2023-10-10

【大数据】HIVE大全

HIVE 内部表与外部表的区别 # HIVE储存数据位置 [hadoop@test1 hive]$ hadoop fs -ls /user/hive/warehouse/testhive.db/info/ Found 1 items -rw-r--r-- 3 hadoop supergroup .. ......

数据大全 HIVE更新时间 2023-10-09

【大数据】HIVE部署（文档版本）

Mysql 安装配置远程登录 # 更新密钥 rpm --import https://repo.mysql.com/RPM-GPG-KEY-mysql-2022 # 安装Mysql yum库 rpm -Uvh http://repo.mysql.com//mysql57-community-rele ......

版本文档数据 HIVE更新时间 2023-10-07

hive知识点散记

在不切换数据库的前提下查询某一数据库下的所有表 show tables in 数据库名；查询显示某一张表的元数据信息 desc formatted 表名；查询当前数据库名称 select current_databases(); 对查询结果进行去重 select distinct cname f ......

散记知识点知识 hive更新时间 2023-10-03

LINUX：FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask

如图，问题表现为linux中可直接通过hive进行数据插入但在通过datagrip却更改不了此时，可能时yarn的运行分配的内存较少，或堆内存溢出。在yarn-site.xml中更改，以及mapred-site.xml中更改，完成。 yarn的 <property> <name>yarn.sch ......

MapRedTask Execution FAILED return apache更新时间 2023-10-02

共409篇 :4/14页 首页上一页1234567下一页尾页