spark-hive spark hive

spark 常用参数和默认配置

##常用的Spark任务参数及其作用: 1. `spark.driver.memory`:设置driver进程使用的内存大小,默认为1g。 2. `spark.executor.memory`:设置每个executor进程使用的内存大小,默认为1g。 3. `spark.executor.cores ......
常用 参数 spark

Hive扩展内容

### 一个SQL语句的分析 ```sql SELECT a.Key, SUM(a.Cnt) AS Cnt FROM ( SELECT Key, COUNT(*) AS Cnt FROM TableName GROUP BY Key, CASE WHEN Key = 'KEY001' THEN Ha ......
内容 Hive

Hive高级函数实战

### 函数的基本操作 和mysql一样的,hive也是一个主要做统计的工具,所以为了满足各种各样的统计需要,它也内置了相当多的函数 ```sql show functions; # 查看所有内置函数 desc function functionName; # 查看指定函数的描述信息 desc fu ......
函数 实战 Hive

【博学谷学习记录】超强总结,用心分享 | hive

【博学谷IT技术支持】 # 一、介绍 `hive`是基于`hadoop`的数据仓库工具,用来进行数据的提取、转化、加载,是一种可以存储、查询和分析存储在`hadoop`中的大规模数据机制。`hive`将结构化的数据文件映射为一张数据库表,并提供`SQL`查询功能,将SQL语句变成`MapReduce ......
hive

博学谷学习记录】超强总结,用心分享 | hive的内置函数

【博学谷IT技术支持】 # 操作 ## 内置函数 ### 数学函数 - 取整函数round ``` -- 取整函数 第一个为值,第二个为保留几位小数,取证规则四舍五入 select round(2.2222); -- 2 select round(2.5); 3 select round(2.555 ......
函数 hive

【博学谷学习记录】超强总结,用心分享 | hive 查询、分组、join

【博学谷IT技术支持】 ## 查询 ### 常用函数 - 常用函数 ``` 常用函数 -- 求总行数(count) select count(1) from score; -- 36 -- 求分数的最大值(max) select max(sscore) from score; 99 -- 求分数的最 ......
hive join

【博学谷学习记录】超强总结,用心分享 | hive 日期函数与条件函数

【博学谷IT技术支持】 公众号: 积雷山摩云洞,欢迎关注!!! # 操作 ## 日期函数 - 获取当前时间 ``` -- 获取当前时间 -- 获取年月日 select `current_date`(); -- 2022-10-30 -- 获取年月日时分秒 select `current_timest ......
函数 条件 日期 hive

【博学谷学习记录】超强总结,用心分享 | hive分区与分桶的区别

【博学谷IT技术支持】 公众号: 积雷山摩云洞,欢迎关注!!! # 概念 - 分区表: 将数据分散到多个子目录中,在执行查询是,可以根据条件加快查询效率 - 分桶表:是相对分区更细的颗粒度划分,分桶表是将表查分到不同的文件中,根据数据表某列的hash值进行分区,对某列数据分区就是对该列属性值的has ......
hive

Hive核心实战

### Hive中数据库的操作 ```sql show databases; # 查看数据库列表 use default; # 选择数据库 create database mydb1; # 创建数据库 create database mydb2 location '/user/hive/mydb2' ......
实战 核心 Hive

Hive中的表类型

在Mysql中没有表类型这个概念,因为它就只有一种表。但是Hive中是有多种表类型的,我们可以分为四种,内部表、外部表、分区表、桶表 下面来一个一个学习一下这些类型的表 ### 内部表 内部表也可以称为受控表,它是Hive中的默认表类型,表数据默认存储在 warehouse 目录中。 在加载数据的过 ......
类型 Hive

【博学谷学习记录】超强总结,用心分享 | spark知识点总结2

【博学谷IT技术支持】 #### Action动作算子 * reduce: 通过func函数聚集RDD中的所有元素,这个功能必须是可交换且可并联的 * collect: 在驱动程序中,以数组的形式返回数据集的所有元素 * count: 返回RDD的元素个数 * first: 返回RDD的第一个元素( ......
知识点 知识 spark

Windows 配置 Hadoop and Spark

一 JDK环境配置 由于项目用的JDK17,所以单独给Hadoop配了JDK11,建议直接配置JAVA_HOME环境变量为JDK11,因为后面Spark需要用到JAVA_HOME 下载JDK11 链接:https://www.oracle.com/java/technologies/javase/j ......
Windows Hadoop Spark and

Hive基础使用

### Hive的使用方式 可以在Shell命令行下操作Hive,或者使用JDBC代码的方式操作 ### 命令行方式 针对命令行这种方式,其实还有两种使用 - 第一个是使用bin目录下的hive命令,这个是从hive一开始就支持的使用方式 - 后来又出现一个beeline命令,它是通过HiveSer ......
基础 Hive

Hive - 言出法随

-- 显示当前数据库 select current_database(); -- 设置hive属性在命令行显示当前数据库 set hive.cli.print.current.db=true; ......
言出法随 Hive

Hive详解

### 什么是Hive Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载,可以简称为ETL。 Hive 定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户直接查询Hadoop中的数据,同时,这个语言也允许熟悉MapReduce的开发者 ......
Hive

Apache Spark 编程和优化

Assignment 2: Apache Spark Programming and OptimisationGroup Assignment (15%) 10/05/2023IntroductionThis is the second part of the practical assignmen ......
Apache Spark

Spark入门看这篇就够了(万字长文)

本文已收录至Github,推荐阅读 👉 [Java随想录](https://github.com/ZhengShuHai/JavaRecord) 微信公众号:[Java随想录](https://mmbiz.qpic.cn/mmbiz_jpg/jC8rtGdWScMuzzTENRgicfnr91C5 ......
长文 Spark

Hive的分区、分桶

Hive的分区表、分桶表 一、 Hive库的分区表 1.1概述 Hive 中的表对应为 HDFS 上的指定目录,在查询数据时候,默认会对全表进行扫描,这样时间和性能的消耗都非常大。 分区为 HDFS 上表目录的子目录,数据按照分区存储在子目录中。如果查询的 where 字句的中包含分区条件,则直接从 ......
Hive

hive优秀文章

hiveserver2源码: 转 Hive源码分析——HiveServer2启动过程 https://zhizhi.pcwanli.com/front/article/9514.html 【原创】大数据基础之Hive(1)Hive SQL执行过程之代码流程 https://blog.csdn.net ......
文章 hive

本地spark通过spark集群连接hive

最近在学习spark,上周将spark集群搭建起来了,今天在idea中创建了一个测试程序读取hive库中的数据,程序很简单,但是踩到一些坑,卡了四五个小时,做个记录。 搭建Spark集群比较简单: 1、安装scala,scala版本要和spark使用的scala版本一致(因为这个问题卡了五六个小时) ......
spark 集群 hive

Spark简介

(一)Spark介绍 Spark是一个通用的分布式数据处理引擎。 通用:通用指的是Spark可以做很多事情。包括机器学习,数据流传输,交互分析,ETL,批处理,图计算等等等等都是Spark可以做到的。甚至可以说,你需要用数据实现的任何事情,你都可以用Spark试试看。 分布式:指的是Spark处理数 ......
简介 Spark

Centos7安装配置Hive

Centos7安装配置 # 一 、 安装 安装就不多做详述,选择好自己的镜像设置好路径即可 # 二 、配置 #### 2.1 网络配置 桌面右键进入 `cmd` 命令编辑窗口,在 Linux 中设置网络的相关配置都需要管理员权限,需要先切换到 root 用户。 ```markdown vim /et ......
Centos7 Centos Hive

hive(七) -- 拉链表、数据存储及优化配置

## 拉链表 ### 数据同步问题 Hive在实际工作中主要用于构建离线数据仓库,定期的从各种数据源中同步采集数据到Hive中,经过分层转换提供数据应用。比如每天需要从MySQL中同步最新的订单信息、用户信息、店铺信息等到数据仓库中,进行订单分析、用户分析。 ![image](https://img ......
拉链 数据 hive

在本地运行spark程序,出现Scala module 2.13.4 requires Jackson Databind version >= 2.13.0 and < 2.14.0 - Found jackson-databind version 2.12.7

这是jackson多版本题 , 我们需要屏蔽所有hadoop 组件中的Jackson,在pom.xml文件里修改: 添加 <exclusions> <exclusion> <groupId>com.fasterxml.jackson.module</groupId> <artifactId>*</a ......

hive(六)

## 函数 Hive的函数分为两大类∶内置函数(Built-in Functions )、用户定义函数UDF (User-Defined Functions ) . 内置函数可分为︰数值类型函数、日期类型函数、字符串类型函数、集合函数、条件函数等; 用户定义函数根据输入输出的行数可分为3类:UDF、 ......
hive

hive学习基础与调优

一、Hive基础知识 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能(hive的HQL语法设计实际模仿Mysql的语法)。其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储,说白了hive可以理解为一 ......
基础 hive

hive查询练习

## 练习1 ```SQl 2022-08-07 1,liuyan 2,tangyan 3,jinlian 4,dalang 5,ximenqing 2022-08-08 1,liuyan 2,tangyan 4,dalang 6,wusong -- 创建分区表记录每天用户登陆信息 create t ......
hive

Hive函数大全

Hive内部提供了很多函数给开发者使用,包括数学函数,类型转换函数,条件函数,字符函数,聚合函数,表生成函数等等,这些函数都统称为内置函数。 数学函数 Return Type Name (Signature) Description DOUBLE round(DOUBLE a) Returns th ......
函数 大全 Hive

【博学谷学习记录】超强总结,用心分享 | spark知识点总结1

【博学谷IT技术支持】 ## Spark基础 ### spark的特点 * 运行速度快 ```js 提供了一个全新的数据结构哦RDD(弹性的分布式数据集) 整个Spark是基于线程来运行的,线程的启动和销毁优于进程 ``` * 易用性 ```js spark 提供了多种操作语言的API,python ......
知识点 知识 spark

Hive - Hive介绍

是 基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供 类SQL查询功能。 Hive处理的数据存储在HDFS上,数据分析底层实现是MR,执行程序运行在Yarn上。 ......
Hive