spark-hive spark hive

Spark的一些重要概念

# Shuffle的深入理解 什么是Shuffle,本意为洗牌,在数据处理领域里面,意为将数打散。 问题:shuffle一定有网络传输吗?有网络传输的一定是Shuffle吗? ## Shuffle的概念 通过网络将数据传输到多台机器,数据被打散,但是有网络传输,不一定就有shuffle,Shuffl ......
概念 Spark

org.apache.spark.shuffle.FetchFailedException: The relative remote executor(Id: 21), which maintains the block data to fetch is dead.

# 问题描述 org.apache.spark.shuffle.FetchFailedException: The relative remote executor(Id: 21), which maintains the block data to fetch is dead. 最近在做Spark ......

Hive中怎样创建和查询视图信息?

视图是从数据库的数据表中选取出来的数据组成的逻辑窗口,它是一个虚拟机表。引入视图后,用户可以将注意力集中在关心的数据上,如果数据来源于多个基本表结构,并且搜索条件比较复杂时,需要编写的查询语句就会比较烦琐,此时可以使用视图将数据查询语句变得简单可行。 Hive中的视图是一种无关底层存储的逻辑对象,也 ......
视图 信息 Hive

Spark中RDD的特殊算子和重要概念

# RDD特殊的算子 ## cache、persist 将数据缓存到内存,第一次触发Action,才会将数据放入内存,以后在触发Action,可以复用前面内存中缓存的数据,可以提升技术效率 cache和persist的使用场景:一个application多次触发Action,为了复用前面RDD的数据 ......
算子 概念 Spark RDD

Spark

[spark官网](https://spark.apache.org/ "spark官网") ``` https://spark.apache.org/ ``` ##### Scala学习 [Scala学习](https://www.cnblogs.com/rbcd/articles/1752466 ......
Spark

Spark中RDD的Action算子

# RDD的Action算子 Action算子会触发Job的生成,底层调用的是sparkContext.runJob方法,根据最后一个RDD,从后往前,切分Stage,生成Task ![image](https://img2023.cnblogs.com/blog/1742816/202307/17 ......
算子 Action Spark RDD

在VMware虚拟机集群中,完成Hive的安装部署

# 更新密钥 rpm --import https://repo.mysql.com/RPM-GPG-KEY-mysql-2022 # 安装Mysql yum库 rpm -Uvh http://repo.mysql.com//mysql57-community-release-el7-7.noarc ......
集群 VMware Hive

Apache Hive

Apache Hive是一个基于Hadoop的数据仓库基础设施。它提供了一种类似于SQL的查询语言,称为HiveQL,用于处理和分析存储在Hadoop分布式文件系统(HDFS)或其他支持Hadoop的文件系统中的大规模数据集。Hive的设计目标是使用户能够执行复杂的分析查询,而无需编写复杂的MapR ......
Apache Hive

Spark中RDD的Transformation算子

# RDD的Transformation算子 ## map map算子的功能为做映射,即将原来的RDD中对应的每一个元素,应用外部传入的函数进行运算,返回一个新的RDD ```Scala val rdd1: RDD[Int] = sc.parallelize(List(1,2,3,4,5,6,7,8 ......
算子 Transformation Spark RDD

Spark使用Python开发和RDD

# 使用PySpark ## 配置python环境 在所有节点上按照python3,版本必须是python3.6及以上版本 ```Shell yum install -y python3 ``` 修改所有节点的环境变量 ```Shell export JAVA_HOME=/usr/local/jdk ......
Python Spark RDD

什么是hive的高级分组聚合,它的用法和注意事项以及性能分析

hive的高级分组聚合是指在聚合时使用GROUPING SETS、CUBE和ROLLUP的分组聚合。 高级分组聚合在很多数据库类SQL中都有出现,并非hive独有,这里只说明hive中的情况。 使用高级分组聚合不仅可以简化SQL语句,而且通常情况下会提升SQL语句的性能。 ## 1.Grouping ......
性能分析 注意事项 事项 性能 hive

spark常见问题

spark任务报错:KryoException: Buffer overflow. Available: xxx, required: xxx 可以适当增加spark.kryoserializer.buffer.max 的值, 默认是128m,可以尝试给到256m或512m ......
常见问题 常见 问题 spark

Spark编程基础

# Scala编写Spark的WorkCount ## 创建一个Maven项目 在pom.xml中添加依赖和插件 ```XML 8 8 UTF-8 3.2.3 2.12.15 org.scala-lang scala-library ${scala.version} org.apache.spark ......
基础 Spark

Spark环境搭建及Spark shell

# StandAlone模式环境搭建 环境准备:三台Linux,一个安装Master,其他两台机器安装Worker ![image](https://img2023.cnblogs.com/blog/1742816/202306/1742816-20230627212426287-907092698 ......
Spark 环境 shell

Hive3.1.3集群安装

一、安装mysql Hive默认的Derby数据库一次只能打开一个会话,不支持多用户并发访问,需要替换Hive的存储引擎为mysql 1. 下载mysql安装包 wget http://dev.mysql.com/get/mysql57-community-release-el7-7.noarch. ......
集群 Hive3 Hive 1.3

041.hive-hive输出所有表结构

-- hive 输出库中表结构 -- 输出所有表名 hive -e "use xx;show tables;" > tables.txt vim echo_table.sh -- 输出所有表结构 #!/bin/bash echo 'use xx;' >> tablesDDL.sql cat tabl ......
hive hive-hive 结构 041

Spark架构体系

# Spark架构体系 StandAlone模式是spark自带的集群运行模式,不依赖其他的资源调度框架,部署起来简单。 StandAlone模式又分为client模式和cluster模式,本质区别是Driver运行在哪里,如果Driver运行在SparkSubmit进程中就是Client模式,如果 ......
架构 体系 Spark

hive ddl

普通建表 外部表代表会完全接管, 内部表表示删除的时候不会删除HDFS的数据 三种建表语句 第二种把查询语句作为建一个新表, 新表里面就有数据 第三种新建的表里面就没有数据 ......
hive ddl

hive最小化部署 生产部署 hiveserver2 代理对象 和metastore服务

自带的derbe的数据库, 建表后就是在路径下新建了一个文件,映射成表的概念, 同时在yarn会去执行,但是很多数据量很小的操作不会提交到yarn 从stu表读数据的时候 用的inputformat 写数据的时候用的outputformat metastore服务 保存表名和文件路径之间的映射关系 ......
hiveserver2 hiveserver metastore 对象 hive

hive 先生成抽象语法树,在进行逻辑优化,再到屋里计划生成,物理优化,最后再执行

driver 主要的任务是将一条 sql 语句翻译成 物理执行计划,例如 一个map Reduce任务 deiver驱动器, 词法分析 select (token)from (token) 和 语法分析 合并成抽象语法树 语义分析,分解成一个个的查询单元, 类似于子查询 ......
语法 逻辑 物理 hive

Spark简介

# Spark Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache的顶级项目,2014年5月发布spark1.0,2016年7月发布spark2.0,2020年6月 ......
简介 Spark

Spark基础

Spark是一种基于内存的快捷、通用、可扩展的大数据分析引擎 1. Spark模块 Spark Core: Spark核心模块,包含RDD、任务调度、内存管理、错误恢复、与存储系统交互等 Spark SQL:用于处理结构化数据的一个模块,提供了2个编程抽象:DataFrame DataSet,并且作 ......
基础 Spark

如何在Databricks中使用Spark进行数据处理与分析

[toc] 1. 《如何在Databricks中使用Spark进行数据处理与分析》 随着大数据时代的到来,数据处理与分析变得越来越重要。在数据处理与分析过程中,数据的存储、处理、分析和展示是不可或缺的关键步骤。在数据处理与分析中,Spark是一个强大的开源计算框架,它可以处理大规模分布式数据集,并提 ......
数据处理 Databricks 数据 Spark

高可用Hive

## 上传hive,mysql安装包 **下载安装包请参考这篇文章里面的网址:https://www.cnblogs.com/skyrainmom/p/17438858.html** ## 解压包设置权限 ``` [root@master ~]# tar xf apache-hive-2.0.0-b ......
Hive

Hive扩展之web界面:hwi接口

**HWI是Hive Web Interface的简称,是hive cli的一个web替换方案,以开发的网页形式查看数据** ## 切换用户启动集群 ``` [root@master ~]# su - hadoop Last login: Tue May 2 13:18:34 CST 2023 on ......
界面 接口 Hive web hwi

Docker 安装 Hive

一、安装Docker 以及 配置Docker-compose环境 安装Docker: # 1、切换镜像源 [root@master ~]# wget https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo -O /etc/yu ......
Docker Hive

Apache Spark教程_编程入门自学教程_菜鸟教程-免费教程分享

## 教程简介 Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但 ......
教程 菜鸟教程 Apache Spark

基于Spark的大规模日志分析

摘要:本篇文章将从一个实际项目出发,分享如何使用 Spark 进行大规模日志分析,并通过代码演示加深读者的理解。 本文分享自华为云社区《【实战经验分享】基于Spark的大规模日志分析【上进小菜猪大数据系列】》,作者:上进小菜猪。 随着互联网的普及和应用范围的扩大,越来越多的应用场景需要对海量数据进行 ......
大规模 Spark 日志

Hive常见时间日期函数的使用与问题整理

hive本身提供的时间函数已经很丰富了,基本上能满足我们所有的需求,一些特殊需求也可以通过增加一些数学逻辑实现出来。 ......
函数 常见 日期 时间 问题