spark-hive spark hive

Hive--map类型

......
类型 Hive map

数仓 Hive HA 介绍与实战操作

[TOC] ## 一、概述 在数据仓库中,`Hive HA(High Availability)` 是指为 `Apache Hive` 这个数据仓库查询和分析工具提供高可用性的架构和解决方案。Hive是建立在Hadoop生态系统之上的一种数据仓库解决方案,用于处理大规模数据的查询和分析。为了确保Hi ......
实战 Hive HA

Spark2.2快速入门

# 快速入门 通过 Spark 的交互式 shell 简单介绍一下 (Python 或 Scala) API,然后展示如何使用 Java、Scala 以及 Python 编写一个 Spark 应用程序。 >Spark 2.0 版本之前, Spark 的核心编程接口是弹性分布式数据集(RDD)。Spa ......
Spark2 Spark

Hive Merge详解

说明Hive在2.2版本之后开始支持Merge操作,并且Merge只能在支持ACID的表上执行 语法MERGE INTO <target table> AS T USING <source expression/table> AS SON <boolean expression1>WHEN MATC ......
Merge Hive

Hive执行过程中出现 ArrayIndexOutOfBoundsException: -128

记一次Hive的运行过程中的错误 `Error: java.lang.RuntimeException: Hive Runtime Error while closing operators at org.apache.hadoop.hive.ql.exec.mr.ExecMapper.close( ......

hive建表以\t分割,直接put文件到表目录下进行查询

建表语句 ``` CREATE external TABLE `login_number`( serial_number string) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' WITH SERDEP ......
文件 目录 hive put

FineBI连接hive出现中文乱码问题(已解决)

出现下列情况 解决方法: hive 的注释(comment) 中文乱码的解决方法 解决后 ......
乱码 FineBI 问题 hive

hive同时使用where,group by,having,order by的执行顺序

###hive中分组排序过滤使用顺序。 ``` where,group by,having,order by同时使用,执行顺序为 (1)where过滤数据 (2)对筛选结果集group by分组 (3)对每个分组进行select查询,提取对应的列,有几组就执行几次 (4)再进行having筛选每组数 ......
顺序 同时 having group where

RDBMS与Hbase对比 HDFS与HBase对比 Hive与HBase对比

RDBMS: HBASE: HDFS与HBase对比: Hive与HBase对比: Hive与HBase总结 ......
HBase RDBMS Hbase HDFS Hive

spark dataset dataframe 动态添加列

>需求 利用SparkSQL计算每一行数据的数据质量,如果数据不为NULL或者不为空字符串(或者符合正则表达式),那么该字段该行数据积一分 >网上解决方案 https://blog.csdn.net/Code_LT/article/details/87719115 https://blog.csdn ......
dataframe dataset 动态 spark

关于spark写clickhouse出现 too many parts(300)错误的最佳解决方式

出现这个问题的根本原因是clickhouse插入速度超过clickhouse的文件合并速度(默认300) 解决方式如下 觉得好用记得点个关注或者赞哈 ......
clickhouse 错误 方式 spark parts

Hive 内置函数

Hive 常用的内置函数 --查看内置函数 show functions; --查看函数的用法 describe function extended count; String Functions 字符串函数 select length("itcast");--长度 select reverse(" ......
函数 Hive

Hive select查询语句

创建表 CREATE TABLE t_usa_covid19( count_date string, county string, state string, fips int, cases int, deaths int) row format delimited fields terminate ......
语句 select Hive

Spark入门

# 一、Spark框架概述 ## 1.1 spark是什么 定义:Apache Spark是用于大规模数据(large-scala data)处理的统一(unified)分析引擎。 弹性分布式数据集RDD:RDD 是一种分布式内存抽象,其使得程序员能够在大规模集群中做内存运算,并且有一定的容错方式。 ......
Spark

dolphinscheduler 调度spark on k8s

dolphinscheduler 对于k8s的支持可以使用spark任务模式选择k8s 配置,当然也可以直接通过k8s 集成通过容器镜像模式运行,两种方式各有利弊,但是完全基于k8s模式会比较方便些 集成玩法说明 spark 任务模式 此模式我们需要配置SPARK_HOME 给每个dolphinsc ......
dolphinscheduler spark k8s 8s on

24-Hive优化(下)

# 1. 分组聚合优化 ## 1.1 优化说明 Hive 中未经优化的分组聚合,是通过一个 MapReduce Job 实现的。Map 端负责读取数据,并按照分组字段分区,通过 Shuffle,将数据发往 Reduce 端,各组数据在 Reduce 端完成最终的聚合运算。 Hive 对分组聚合的优化 ......
Hive 24

23-Hive优化(上)

# 1. Hive 表设计优化 ## 1.1 分区表 ### a. 基本查询原理 Hive 的设计思想是通过元数据将 HDFS 上的文件映射成表,基本的查询原理是当用户通过 HQL 语句对 Hive 中的表进行复杂数据处理和计算时,默认将其转换为分布式计算 MapReduce 程序对 HDFS 中的 ......
Hive 23

22-Hive函数应用

# 1. 多字节分隔符 ## 1.1 问题与需求 【**默认规则**】Hive 默认序列化类是 LazySimpleSerDe,其只支持使用单字节分隔符(char)来加载文本数据,例如逗号、制表符、空格等等,默认的分隔符为”\001”。根据不同文件的不同分隔符,我们可以通过在创建表时使用 `row ......
函数 Hive 22

21-Hive运算符&函数

# 1. Hive 内置运算符 整体上,Hive 支持的运算符可以分为三大类:关系运算、算术运算、逻辑运算。 官方参考文档:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 也可以使用下述方式查看运算符的使用方式: ......
运算符 函数 Hive amp 21

20-Hive-DML&DQL

# 1. Load DATA 回想一下,当在 Hive 中创建好表之后,默认就会在 HDFS 上创建一个与之对应的文件夹,默认路径是由参数 hive.metastore.warehouse.dir 控制,默认值是 /user/hive/warehouse。 要想让 Hive 的表和结构化的数据文件产 ......
Hive-DML Hive DML DQL amp

19-Hive-DDL

数据定义语言(Data Definition Language,DDL)是 SQL 语言集中对数据库内部的对象结构进行创建,删除,修改等的操作语言,这些数据库对象包括 database(schema)、table、view、index 等。核心语法由 CREATE、ALTER 与 DROP 三个所组 ......
Hive-DDL Hive DDL 19

18-Hive入门&安装

# 1. Hive 概述 ## 1.1 什么是 Hive? Apache Hive 是一款**建立在 Hadoop 之上的开源数据仓库工具**,可以将存储在 Hadoop 文件中的结构化、半结构化数据文件映射为一张数据库表,基于表提供了一种类似 SQL 的查询模型,称为 Hive 查询语言(HQL) ......
Hive amp 18

Hive查看所有表/分区更新时间

业务需求: 开始环境可能不太稳定, 需要每天手动检查 Hive 里面的数据是否同步 ```shell ## 步骤 1. 查看分区 show partitions table_name; 2.查看分区更新时间 - 获取hdfs路径 desc formatted table_name; 3. 通过dfs ......
时间 Hive

Spark

# SparkCore ## RDD基础 ### 定义 ​ 在 Spark 的编程接口中,每一个数据集都被表示为一个对象,称为 RDD。RDD 是 Resillient Distributed Dataset(弹性分布式数据集)的简称,是一个只读的(不可变的)、分区的(分布式的)、容错的、延迟计算的 ......
Spark

五分钟了解Spark之RDD!!

# Spark之探究RDD > 如何了解一个组件,先看看官方介绍! ![](https://img2023.cnblogs.com/blog/3161112/202307/3161112-20230727212358040-237097554.png) 进入RDD.scala,引入眼帘的是这么一段描 ......
Spark RDD

Hive SQL之表与建表

数据类型: 建表 create database itheima; --1.创建一张表 -- 表名 --字段 名称 类型 顺序 --字段之间的分隔符 create table itheima.t_archer( id int, name string , hp_max int, mp_max int ......
Hive SQL

Hive架构组件

架构图 Hive组件 ......
架构 组件 Hive

Hive

什么是Hive 为什么使用Hive Hive和Hadoop的关系 ......
Hive

数据仓库——Hive

数据仓库:是一个用于储存,分析,报告的数据系统 数据仓库的目的是构建面向分析的集成化数据环境,分析结果为企业提供决策支持 数仓专注分析 数据仓库仓库为何而来,解决什么问题的? 为了分析数据而来,分析结果给企业决策提供支撑。 ......
仓库 数据 Hive