spark-hive spark hive
HIVE带中括号的列名取数
某次取数,某表中有奇怪的字段名:pointchange_ygz_[yyyy],带了个中插号,用简单查询出错 select pointchange_ygz_[yyyy] as p from t 出错信息: Error while compiling statement: FAILED: Semanti ......
spark3的bug
1.[SPARK-39936][SQL] Store schema in properties for Spark Views,spark视图保存到hive metastore时未清空tableschema导致解析失败 Hive DataType解析器主要发生在Hive的元数据存储(Hive Met ......
Hive SQL 的 ntile 分组切片函数
Hive SQL 的 ntile 函数用于将分组数据按照顺序切分成n组,并返回当前切片值。如果切片不均匀,默认增加第一个切片的分布。它把有序的数据集合「平均分配」到指定的数量(n)个桶中, 将桶号分配给每一行。如果不能平均分配,则优先分配较小编号的桶,并且各个桶中能放的行数最多相差 1。 语法 Hi ......
[42000][3] Error while processing statement: FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.spark.SparkTask.
[42000][3] Error while processing statement: FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Spark job fai ......
1.hive 简介
[TOC] ## 1.1 hive出现的原因 FaceBook网站每天产生海量的结构化日志数据,为了对这些数据进行管理,并且因为机器学习的需求,产生了hive这门技术,并继续发展成为一个成功的Apache项目(hive是由Facebook开源用于解决海量结构化日志的数据统计)==》广泛应用原因: + ......
问题排查Hive本地计算模式失败
# 问题排查Hive本地计算模式失败 ==查看hive.log后发现是**java space heap**,也就是java内存溢出。== ### 解决方案: 1. 配置yarn集群的资源分配。 - 由于是本地计算,因此container一定是申请在本地的,限制AM申请container容器资源的大 ......
问题排查Hive本地计算模式失败
# 问题排查Hive本地计算模式失败 ==查看hive.log后发现是**java space heap**,也就是java内存溢出。== ### 解决方案: 1. 配置yarn集群的资源分配。 - 由于是本地计算,因此container一定是申请在本地的,限制AM申请container容器资源的大 ......
【HIVE系列】01-HIVE 常用操作
title: 【HIVE系列】01-HIVE 常用操作 date: 2018-11-13 20:20:31 update: 2018-11-15 17:10:43 categories: - 大数据技术 - hive tags: [hive] >> 参考资料: https://blog.csdn.n ......
关于hive的字段注释乱码解决
今天我发现我的DBeaver执行完sql后,表的注释乱码,深究下来是要去设置hive的编码,要不注释是乱码。 教程:hive设置中文编码格式utf-8_hive建表指定字符集_2021xyz666的博客-CSDN博客 ......
hive如何提高查询性能
本文会通过四个方面介绍Hive性能调优,主要包括: √性能调优工具 √设计优化策略 √数据存储优化 √作业优化技巧 ## 1.合并中间表 一个日志文件中,每一行记录,会有很多很多字段,四五十个字段很正常。实际分析中,常常使用少数几个字段将原始的表中数据,依据业务需求提取出要分析的字段,数据放入到对应 ......
Spark概述
# Spark概述 ## 1.1认识Spark 背景:现有的计算框架有:批处理:MapReduce、Hive、Pig…,流式计算:Storm,交互式计算:Impala,Presto,但没有一种框架兼容以上所有的计算框架,spark应运而生 ### 1.1.1 Spark的发展 2009年由Berke ......
Spark编程
# Spark编程 ![image-20200424092626485](https://img2023.cnblogs.com/blog/2004825/202308/2004825-20230813091225746-496339472.png) ![image-2020042409271958 ......
Spark SQL
# Spark SQL ## 1.1Spark SQL简介 Spark SQL是一个用来处理结构化数据的Spark 组件。它可被视为一个分 布式的SQL查询引擎,并且提供了一个叫作DataFrame的可编程抽象数据模型。Spark SQL的前身是Shark,由于Shark需要依赖于Hive而制约了S ......
Spark提交程序到Yarn任务状态一直为Accepted
正在学习《Spark快速大数据分析》第七章-在集群上运行Spark,写了一个单词数量统计的Spark程序提及到Yarn,但是状态一直是Accepted,等待运行。 1、排查了Yarn资源调度器配置,配置的是公平配置,确认无问题 ```xml yarn.scheduler.fair.allocatio ......
8.7-8.13学习总结博客五:Hive进阶与复杂查询
博客题目:学习总结五:Hive进阶与复杂查询实践内容概要:学习Hive进阶的使用方法,包括复杂查询、数据转换和性能优化等方面的知识。学习资源:推荐的Hive进阶教程、实践案例和性能优化技巧。实践内容:通过编写复杂的Hive查询语句,探索Hive的高级功能和性能优化方法,并分享实践中的挑战和解决方案。 ......
假期总结之Hive基础架构
Apache Hive其2大主要组件就是:SQL解析器以及元数据存储, 如下图。 元数据存储 通常是存储在关系数据库如 mysql/derby中。Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。 -- Hive提供了 Metastore 服务进 ......
hive处理字符串化数组
大数据在进行ETL过程中,为了避免因为源、目标表字段因为数据类型不一致造成抽数失败,所以在目标表一般都会将字段设置成string类型,后续数据同步过来后再进行类型转换。 以ARRAY类型字段举例: 通过正则将字符串左右两边的中括号[]进行去除 explode(split(REGEXP_REPLACE ......
spark社区bug
1.SPARK-26114repartitionAndSortWithinPartitions 后合并时 PartitionedPairBuffer 的内存泄漏 原因 这个Spark源码的issue描述了在使用coalesce操作合并分区时可能会导致PartitionedPairBuffer内存泄漏 ......
Spark安装(黑马程序员文档)
Spark Local环境部署 下载地址 Spark https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-3.4.1/ Anaconda https://mirrors.tuna.tsinghua.edu.cn/anaconda/archi ......
hive 的order by ,sort by,distribute by,cluster by
order by order by会对输入做全局排序,因此只有一个Reducer(多个Reducer无法保证全局有序),然而只有一个Reducer,会导致当输入规模较大时,消耗较长的计算时间,在生产环境中遇到数据量较大的情况,一般无法成功。 sort by sort by不是全局排序,其在数据进入r ......
大数据-hive 添加分区
1、静态分区1> 添加一个alter table t2 add partition (city=‘shanghai’);2> 添加多个alter table t2 add partition (city=‘chengdu’) partition(city=‘tianjin’);3> 添加分区指定位置 ......
Hive之分区表
在大数据中,最常用的一种思想就是分治,我们可以把大的文件切割划分成一个个的小的文件,这样每次操作一个小的文件就会很容易了 同样的道理,在hive当中也是支持这种思想的,就是我们可以把大的数据,按照每天,或者每小时进行切分成一个个的小的文件,这样去操作小的文件就会容易得多了。 如图,一个典型的按月份分 ......
【Windows】Windows10系统下Hadoop和Hive环境搭建
环境准备 软件 版本 备注 Windows 10 操作系统 JDK 8 暂时不要选用大于等于JDK9的版本,因为启动虚拟机会发生未知异常 MySQL 8.x 用于管理Hive的元数据 Apache Hadoop 3.3.1 - Apache Hive 3.1.2 - Apache Hive src ......
hive之内部表与外部表
hive之内部表与外部表 内部表&外部表定义:未被external修饰的是内部表(managed table),被external修饰的为外部表(external table);区别: 内部表数据由Hive自身管理,外部表数据由HDFS管理;内部表数据存储的位置是hive.metastore.war ......