spark-hive spark hive

Hive--map类型

......

类型 Hive map更新时间 2023-08-06

数仓 Hive HA 介绍与实战操作

[TOC] ## 一、概述在数据仓库中，`Hive HA（High Availability）` 是指为 `Apache Hive` 这个数据仓库查询和分析工具提供高可用性的架构和解决方案。Hive是建立在Hadoop生态系统之上的一种数据仓库解决方案，用于处理大规模数据的查询和分析。为了确保Hi ......

实战 Hive HA更新时间 2023-08-06

Spark2.2快速入门

# 快速入门通过 Spark 的交互式 shell 简单介绍一下 (Python 或 Scala) API，然后展示如何使用 Java、Scala 以及 Python 编写一个 Spark 应用程序。 >Spark 2.0 版本之前, Spark 的核心编程接口是弹性分布式数据集(RDD)。Spa ......

Spark2 Spark更新时间 2023-08-05

Hive Merge详解

说明Hive在2.2版本之后开始支持Merge操作，并且Merge只能在支持ACID的表上执行语法MERGE INTO <target table> AS T USING <source expression/table> AS SON <boolean expression1>WHEN MATC ......

Merge Hive更新时间 2023-08-04

Hive执行过程中出现 ArrayIndexOutOfBoundsException: -128

记一次Hive的运行过程中的错误 `Error: java.lang.RuntimeException: Hive Runtime Error while closing operators at org.apache.hadoop.hive.ql.exec.mr.ExecMapper.close( ......

ArrayIndexOutOfBoundsException 过程 Hive 128更新时间 2023-08-04

hive建表以\t分割,直接put文件到表目录下进行查询

建表语句 ``` CREATE external TABLE `login_number`( serial_number string) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' WITH SERDEP ......

文件目录 hive put更新时间 2023-08-03

FineBI连接hive出现中文乱码问题（已解决）

出现下列情况解决方法： hive 的注释(comment) 中文乱码的解决方法解决后 ......

乱码 FineBI 问题 hive更新时间 2023-08-03

hive同时使用where,group by,having,order by的执行顺序

###hive中分组排序过滤使用顺序。 ``` where,group by,having,order by同时使用，执行顺序为（1）where过滤数据（2）对筛选结果集group by分组（3）对每个分组进行select查询，提取对应的列，有几组就执行几次（4）再进行having筛选每组数 ......

顺序同时 having group where更新时间 2023-08-02

RDBMS与Hbase对比 HDFS与HBase对比 Hive与HBase对比

RDBMS: HBASE： HDFS与HBase对比： Hive与HBase对比： Hive与HBase总结 ......

HBase RDBMS Hbase HDFS Hive更新时间 2023-08-02

Hive支持的复杂数据类型

......

类型数据 Hive更新时间 2023-08-01

spark dataset dataframe 动态添加列

>需求利用SparkSQL计算每一行数据的数据质量，如果数据不为NULL或者不为空字符串(或者符合正则表达式)，那么该字段该行数据积一分 >网上解决方案 https://blog.csdn.net/Code_LT/article/details/87719115 https://blog.csdn ......

dataframe dataset 动态 spark更新时间 2023-07-31

关于spark写clickhouse出现 too many parts(300)错误的最佳解决方式

出现这个问题的根本原因是clickhouse插入速度超过clickhouse的文件合并速度（默认300）解决方式如下觉得好用记得点个关注或者赞哈 ......

clickhouse 错误方式 spark parts更新时间 2023-07-31

Hive 内置函数

Hive 常用的内置函数 --查看内置函数 show functions; --查看函数的用法 describe function extended count; String Functions 字符串函数 select length("itcast");--长度 select reverse(" ......

函数 Hive更新时间 2023-07-31

Hive select查询语句

创建表 CREATE TABLE t_usa_covid19( count_date string, county string, state string, fips int, cases int, deaths int) row format delimited fields terminate ......

语句 select Hive更新时间 2023-07-31

Spark入门

# 一、Spark框架概述 ## 1.1 spark是什么定义：Apache Spark是用于大规模数据（large-scala data）处理的统一（unified）分析引擎。弹性分布式数据集RDD:RDD 是一种分布式内存抽象，其使得程序员能够在大规模集群中做内存运算，并且有一定的容错方式。 ......

Spark更新时间 2023-07-30

dolphinscheduler 调度spark on k8s

dolphinscheduler 对于k8s的支持可以使用spark任务模式选择k8s 配置，当然也可以直接通过k8s 集成通过容器镜像模式运行，两种方式各有利弊，但是完全基于k8s模式会比较方便些集成玩法说明 spark 任务模式此模式我们需要配置SPARK_HOME 给每个dolphinsc ......

dolphinscheduler spark k8s 8s on更新时间 2023-07-30

24-Hive优化(下)

# 1. 分组聚合优化 ## 1.1 优化说明 Hive 中未经优化的分组聚合，是通过一个 MapReduce Job 实现的。Map 端负责读取数据，并按照分组字段分区，通过 Shuffle，将数据发往 Reduce 端，各组数据在 Reduce 端完成最终的聚合运算。 Hive 对分组聚合的优化 ......

Hive 24更新时间 2023-07-30

23-Hive优化(上)

# 1. Hive 表设计优化 ## 1.1 分区表 ### a. 基本查询原理 Hive 的设计思想是通过元数据将 HDFS 上的文件映射成表，基本的查询原理是当用户通过 HQL 语句对 Hive 中的表进行复杂数据处理和计算时，默认将其转换为分布式计算 MapReduce 程序对 HDFS 中的 ......

Hive 23更新时间 2023-07-29

22-Hive函数应用

# 1. 多字节分隔符 ## 1.1 问题与需求【**默认规则**】Hive 默认序列化类是 LazySimpleSerDe，其只支持使用单字节分隔符（char）来加载文本数据，例如逗号、制表符、空格等等，默认的分隔符为”\001”。根据不同文件的不同分隔符，我们可以通过在创建表时使用 `row ......

函数 Hive 22更新时间 2023-07-29

21-Hive运算符&函数

# 1. Hive 内置运算符整体上，Hive 支持的运算符可以分为三大类：关系运算、算术运算、逻辑运算。官方参考文档：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 也可以使用下述方式查看运算符的使用方式： ......

运算符函数 Hive amp 21更新时间 2023-07-29

20-Hive-DML&DQL

# 1. Load DATA 回想一下，当在 Hive 中创建好表之后，默认就会在 HDFS 上创建一个与之对应的文件夹，默认路径是由参数 hive.metastore.warehouse.dir 控制，默认值是 /user/hive/warehouse。要想让 Hive 的表和结构化的数据文件产 ......

Hive-DML Hive DML DQL amp更新时间 2023-07-29

19-Hive-DDL

数据定义语言（Data Definition Language，DDL）是 SQL 语言集中对数据库内部的对象结构进行创建，删除，修改等的操作语言，这些数据库对象包括 database(schema)、table、view、index 等。核心语法由 CREATE、ALTER 与 DROP 三个所组 ......

Hive-DDL Hive DDL 19更新时间 2023-07-29

18-Hive入门&安装

# 1. Hive 概述 ## 1.1 什么是 Hive？ Apache Hive 是一款**建立在 Hadoop 之上的开源数据仓库工具**，可以将存储在 Hadoop 文件中的结构化、半结构化数据文件映射为一张数据库表，基于表提供了一种类似 SQL 的查询模型，称为 Hive 查询语言（HQL） ......

Hive amp 18更新时间 2023-07-29

Hive查看所有表/分区更新时间

业务需求: 开始环境可能不太稳定, 需要每天手动检查 Hive 里面的数据是否同步 ```shell ## 步骤 1. 查看分区 show partitions table_name; 2.查看分区更新时间 - 获取hdfs路径 desc formatted table_name; 3. 通过dfs ......

时间 Hive更新时间 2023-07-28

Spark

# SparkCore ## RDD基础 ### 定义在 Spark 的编程接口中，每一个数据集都被表示为一个对象，称为 RDD。RDD 是 Resillient Distributed Dataset(弹性分布式数据集)的简称，是一个只读的(不可变的)、分区的(分布式的)、容错的、延迟计算的 ......

Spark更新时间 2023-07-28

五分钟了解Spark之RDD！！

# Spark之探究RDD > 如何了解一个组件，先看看官方介绍！ ![](https://img2023.cnblogs.com/blog/3161112/202307/3161112-20230727212358040-237097554.png) 进入RDD.scala，引入眼帘的是这么一段描 ......

Spark RDD更新时间 2023-07-27

Hive SQL之表与建表

数据类型：建表 create database itheima; --1.创建一张表 -- 表名 --字段名称类型顺序 --字段之间的分隔符 create table itheima.t_archer( id int, name string , hp_max int, mp_max int ......

Hive SQL更新时间 2023-07-27

Hive架构组件

架构图 Hive组件 ......

架构组件 Hive更新时间 2023-07-26

Hive

什么是Hive 为什么使用Hive Hive和Hadoop的关系 ......

Hive更新时间 2023-07-26

数据仓库——Hive

数据仓库：是一个用于储存，分析，报告的数据系统数据仓库的目的是构建面向分析的集成化数据环境，分析结果为企业提供决策支持数仓专注分析数据仓库仓库为何而来，解决什么问题的？为了分析数据而来，分析结果给企业决策提供支撑。 ......

仓库数据 Hive更新时间 2023-07-26

共620篇 :13/21页 首页上一页10111213141516下一页尾页