spark-hive spark hive

HIVE带中括号的列名取数

某次取数，某表中有奇怪的字段名：pointchange_ygz_[yyyy]，带了个中插号，用简单查询出错 select pointchange_ygz_[yyyy] as p from t 出错信息： Error while compiling statement: FAILED: Semanti ......

HIVE更新时间 2023-08-15

spark3的bug

1.[SPARK-39936][SQL] Store schema in properties for Spark Views，spark视图保存到hive metastore时未清空tableschema导致解析失败 Hive DataType解析器主要发生在Hive的元数据存储（Hive Met ......

spark3 spark bug更新时间 2023-08-15

Hive SQL 的 ntile 分组切片函数

Hive SQL 的 ntile 函数用于将分组数据按照顺序切分成n组，并返回当前切片值。如果切片不均匀，默认增加第一个切片的分布。它把有序的数据集合「平均分配」到指定的数量（n）个桶中, 将桶号分配给每一行。如果不能平均分配，则优先分配较小编号的桶，并且各个桶中能放的行数最多相差 1。语法 Hi ......

函数 ntile Hive SQL更新时间 2023-08-14

[42000][3] Error while processing statement: FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.spark.SparkTask.

[42000][3] Error while processing statement: FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Spark job fai ......

Error processing Execution SparkTask statement更新时间 2023-08-14

1.hive 简介

[TOC] ## 1.1 hive出现的原因 FaceBook网站每天产生海量的结构化日志数据，为了对这些数据进行管理，并且因为机器学习的需求，产生了hive这门技术，并继续发展成为一个成功的Apache项目(hive是由Facebook开源用于解决海量结构化日志的数据统计)==》广泛应用原因： + ......

简介 hive更新时间 2023-08-13

问题排查Hive本地计算模式失败

# 问题排查Hive本地计算模式失败 ==查看hive.log后发现是**java space heap**，也就是java内存溢出。== ### 解决方案： 1. 配置yarn集群的资源分配。 - 由于是本地计算，因此container一定是申请在本地的，限制AM申请container容器资源的大 ......

模式问题 Hive更新时间 2023-08-13

问题排查Hive本地计算模式失败

模式问题 Hive更新时间 2023-08-13

【HIVE系列】01-HIVE 常用操作

title: 【HIVE系列】01-HIVE 常用操作 date: 2018-11-13 20:20:31 update: 2018-11-15 17:10:43 categories: - 大数据技术 - hive tags: [hive] >> 参考资料： https://blog.csdn.n ......

HIVE 常用 01更新时间 2023-08-13

关于hive的字段注释乱码解决

今天我发现我的DBeaver执行完sql后，表的注释乱码，深究下来是要去设置hive的编码，要不注释是乱码。教程：hive设置中文编码格式utf-8_hive建表指定字符集_2021xyz666的博客-CSDN博客 ......

乱码字段注释 hive更新时间 2023-08-13

hive如何提高查询性能

本文会通过四个方面介绍Hive性能调优，主要包括： √性能调优工具 √设计优化策略 √数据存储优化 √作业优化技巧 ## 1.合并中间表一个日志文件中，每一行记录，会有很多很多字段，四五十个字段很正常。实际分析中，常常使用少数几个字段将原始的表中数据，依据业务需求提取出要分析的字段，数据放入到对应 ......

性能 hive更新时间 2023-08-13

Hive函数

Hive的函数分为两大类：内置函数（Built-in Functions）、用户定义函数UDF（User-Defined Functions）： ......

函数 Hive更新时间 2023-08-13

Spark概述

# Spark概述 ## 1.1认识Spark 背景：现有的计算框架有：批处理：MapReduce、Hive、Pig…，流式计算：Storm，交互式计算：Impala，Presto，但没有一种框架兼容以上所有的计算框架，spark应运而生 ### 1.1.1 Spark的发展 2009年由Berke ......

Spark更新时间 2023-08-13

Spark编程

# Spark编程 ![image-20200424092626485](https://img2023.cnblogs.com/blog/2004825/202308/2004825-20230813091225746-496339472.png) ![image-2020042409271958 ......

Spark更新时间 2023-08-13

Spark SQL

# Spark SQL ## 1.1Spark SQL简介 Spark SQL是一个用来处理结构化数据的Spark 组件。它可被视为一个分布式的SQL查询引擎，并且提供了一个叫作DataFrame的可编程抽象数据模型。Spark SQL的前身是Shark,由于Shark需要依赖于Hive而制约了S ......

Spark SQL更新时间 2023-08-13

Spark提交程序到Yarn任务状态一直为Accepted

正在学习《Spark快速大数据分析》第七章-在集群上运行Spark，写了一个单词数量统计的Spark程序提及到Yarn，但是状态一直是Accepted，等待运行。 1、排查了Yarn资源调度器配置，配置的是公平配置，确认无问题 ```xml yarn.scheduler.fair.allocatio ......

Accepted 状态任务程序 Spark更新时间 2023-08-12

8.7-8.13学习总结博客五：Hive进阶与复杂查询

博客题目：学习总结五：Hive进阶与复杂查询实践内容概要：学习Hive进阶的使用方法，包括复杂查询、数据转换和性能优化等方面的知识。学习资源：推荐的Hive进阶教程、实践案例和性能优化技巧。实践内容：通过编写复杂的Hive查询语句，探索Hive的高级功能和性能优化方法，并分享实践中的挑战和解决方案。 ......

博客 8.13 Hive 8.7 13更新时间 2023-08-12

假期总结之Hive基础架构

Apache Hive其2大主要组件就是：SQL解析器以及元数据存储，如下图。元数据存储通常是存储在关系数据库如 mysql/derby中。Hive 中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。 -- Hive提供了 Metastore 服务进 ......

架构基础 Hive更新时间 2023-08-12

Hive--函数2

......

函数 Hive更新时间 2023-08-11

hive处理字符串化数组

大数据在进行ETL过程中，为了避免因为源、目标表字段因为数据类型不一致造成抽数失败，所以在目标表一般都会将字段设置成string类型，后续数据同步过来后再进行类型转换。以ARRAY类型字段举例：通过正则将字符串左右两边的中括号[]进行去除 explode(split(REGEXP_REPLACE ......

数组字符串字符 hive更新时间 2023-08-11

spark社区bug

1.SPARK-26114repartitionAndSortWithinPartitions 后合并时 PartitionedPairBuffer 的内存泄漏原因这个Spark源码的issue描述了在使用coalesce操作合并分区时可能会导致PartitionedPairBuffer内存泄漏 ......

spark 社区 bug更新时间 2023-08-11

Hive函数1

......

函数 Hive更新时间 2023-08-11

Spark安装(黑马程序员文档)

Spark Local环境部署下载地址 Spark https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-3.4.1/ Anaconda https://mirrors.tuna.tsinghua.edu.cn/anaconda/archi ......

黑马程序员文档程序 Spark更新时间 2023-08-10

hive 的order by ,sort by，distribute by，cluster by

order by order by会对输入做全局排序，因此只有一个Reducer(多个Reducer无法保证全局有序)，然而只有一个Reducer，会导致当输入规模较大时，消耗较长的计算时间，在生产环境中遇到数据量较大的情况，一般无法成功。 sort by sort by不是全局排序，其在数据进入r ......

distribute cluster order hive by更新时间 2023-08-10

大数据-hive 添加分区

1、静态分区1> 添加一个alter table t2 add partition (city=‘shanghai’);2> 添加多个alter table t2 add partition (city=‘chengdu’) partition(city=‘tianjin’);3> 添加分区指定位置 ......

数据 hive更新时间 2023-08-10

Hive--对表数据进行采样操作

......

数据 Hive更新时间 2023-08-10

Hive之分区表

在大数据中，最常用的一种思想就是分治，我们可以把大的文件切割划分成一个个的小的文件，这样每次操作一个小的文件就会很容易了同样的道理，在hive当中也是支持这种思想的，就是我们可以把大的数据，按照每天，或者每小时进行切分成一个个的小的文件，这样去操作小的文件就会容易得多了。如图，一个典型的按月份分 ......

Hive更新时间 2023-08-09

【Windows】Windows10系统下Hadoop和Hive环境搭建

环境准备软件版本备注 Windows 10 操作系统 JDK 8 暂时不要选用大于等于JDK9的版本，因为启动虚拟机会发生未知异常 MySQL 8.x 用于管理Hive的元数据 Apache Hadoop 3.3.1 - Apache Hive 3.1.2 - Apache Hive src ......

Windows 环境 Hadoop 系统 Hive更新时间 2023-08-08

hive之内部表与外部表

hive之内部表与外部表内部表&外部表定义：未被external修饰的是内部表（managed table），被external修饰的为外部表（external table）；区别：内部表数据由Hive自身管理，外部表数据由HDFS管理；内部表数据存储的位置是hive.metastore.war ......

hive更新时间 2023-08-08

HIve--struct类型

......

类型 struct HIve更新时间 2023-08-08

Apache Spark

.NET for Apache Spark™ |大数据分析 (microsoft.com) ......

Apache Spark更新时间 2023-08-07

共620篇 :12/21页 首页上一页9101112131415下一页尾页