526互联

spark-hive spark hive

Spark的一些重要概念

# Shuffle的深入理解什么是Shuffle，本意为洗牌，在数据处理领域里面，意为将数打散。问题：shuffle一定有网络传输吗？有网络传输的一定是Shuffle吗？ ## Shuffle的概念通过网络将数据传输到多台机器，数据被打散，但是有网络传输，不一定就有shuffle，Shuffl ......

概念 Spark更新时间 2023-07-05

org.apache.spark.shuffle.FetchFailedException: The relative remote executor(Id: 21), which maintains the block data to fetch is dead.

# 问题描述 org.apache.spark.shuffle.FetchFailedException: The relative remote executor(Id: 21), which maintains the block data to fetch is dead. 最近在做Spark ......

FetchFailedException maintains executor relative shuffle更新时间 2023-07-05

Hive中怎样创建和查询视图信息？

视图是从数据库的数据表中选取出来的数据组成的逻辑窗口，它是一个虚拟机表。引入视图后，用户可以将注意力集中在关心的数据上，如果数据来源于多个基本表结构，并且搜索条件比较复杂时，需要编写的查询语句就会比较烦琐，此时可以使用视图将数据查询语句变得简单可行。 Hive中的视图是一种无关底层存储的逻辑对象，也 ......

视图信息 Hive更新时间 2023-07-04

Spark中RDD的特殊算子和重要概念

# RDD特殊的算子 ## cache、persist 将数据缓存到内存，第一次触发Action，才会将数据放入内存，以后在触发Action，可以复用前面内存中缓存的数据，可以提升技术效率 cache和persist的使用场景：一个application多次触发Action，为了复用前面RDD的数据 ......

算子概念 Spark RDD更新时间 2023-07-04

Spark

[spark官网](https://spark.apache.org/ "spark官网") ``` https://spark.apache.org/ ``` ##### Scala学习 [Scala学习](https://www.cnblogs.com/rbcd/articles/1752466 ......

Spark更新时间 2023-07-04

Spark中RDD的Action算子

# RDD的Action算子 Action算子会触发Job的生成，底层调用的是sparkContext.runJob方法，根据最后一个RDD，从后往前，切分Stage，生成Task ![image](https://img2023.cnblogs.com/blog/1742816/202307/17 ......

算子 Action Spark RDD更新时间 2023-07-03

在VMware虚拟机集群中，完成Hive的安装部署

# 更新密钥 rpm --import https://repo.mysql.com/RPM-GPG-KEY-mysql-2022 # 安装Mysql yum库 rpm -Uvh http://repo.mysql.com//mysql57-community-release-el7-7.noarc ......

集群 VMware Hive更新时间 2023-07-03

Apache Hive

Apache Hive是一个基于Hadoop的数据仓库基础设施。它提供了一种类似于SQL的查询语言，称为HiveQL，用于处理和分析存储在Hadoop分布式文件系统（HDFS）或其他支持Hadoop的文件系统中的大规模数据集。Hive的设计目标是使用户能够执行复杂的分析查询，而无需编写复杂的MapR ......

Apache Hive更新时间 2023-07-03

Spark中RDD的Transformation算子

# RDD的Transformation算子 ## map map算子的功能为做映射，即将原来的RDD中对应的每一个元素，应用外部传入的函数进行运算，返回一个新的RDD ```Scala val rdd1: RDD[Int] = sc.parallelize(List(1,2,3,4,5,6,7,8 ......

算子 Transformation Spark RDD更新时间 2023-07-01

Spark使用Python开发和RDD

# 使用PySpark ## 配置python环境在所有节点上按照python3，版本必须是python3.6及以上版本 ```Shell yum install -y python3 ``` 修改所有节点的环境变量 ```Shell export JAVA_HOME=/usr/local/jdk ......

Python Spark RDD更新时间 2023-06-29

什么是hive的高级分组聚合，它的用法和注意事项以及性能分析

hive的高级分组聚合是指在聚合时使用GROUPING SETS、CUBE和ROLLUP的分组聚合。高级分组聚合在很多数据库类SQL中都有出现，并非hive独有，这里只说明hive中的情况。使用高级分组聚合不仅可以简化SQL语句，而且通常情况下会提升SQL语句的性能。 ## 1.Grouping ......

性能分析注意事项事项性能 hive更新时间 2023-06-29

spark常见问题

spark任务报错：KryoException: Buffer overflow. Available: xxx, required: xxx 可以适当增加spark.kryoserializer.buffer.max 的值, 默认是128m，可以尝试给到256m或512m ......

常见问题常见问题 spark更新时间 2023-06-29

Spark编程基础

# Scala编写Spark的WorkCount ## 创建一个Maven项目在pom.xml中添加依赖和插件 ```XML 8 8 UTF-8 3.2.3 2.12.15 org.scala-lang scala-library ${scala.version} org.apache.spark ......

基础 Spark更新时间 2023-06-28

Spark环境搭建及Spark shell

# StandAlone模式环境搭建环境准备：三台Linux，一个安装Master，其他两台机器安装Worker ![image](https://img2023.cnblogs.com/blog/1742816/202306/1742816-20230627212426287-907092698 ......

Spark 环境 shell更新时间 2023-06-27

Hive3.1.3集群安装

一、安装mysql Hive默认的Derby数据库一次只能打开一个会话，不支持多用户并发访问，需要替换Hive的存储引擎为mysql 1. 下载mysql安装包 wget http://dev.mysql.com/get/mysql57-community-release-el7-7.noarch. ......

集群 Hive3 Hive 1.3更新时间 2023-06-27

041.hive-hive输出所有表结构

-- hive 输出库中表结构 -- 输出所有表名 hive -e "use xx;show tables;" > tables.txt vim echo_table.sh -- 输出所有表结构 #!/bin/bash echo 'use xx;' >> tablesDDL.sql cat tabl ......

hive hive-hive 结构 041更新时间 2023-06-27

Spark架构体系

# Spark架构体系 StandAlone模式是spark自带的集群运行模式，不依赖其他的资源调度框架，部署起来简单。 StandAlone模式又分为client模式和cluster模式，本质区别是Driver运行在哪里，如果Driver运行在SparkSubmit进程中就是Client模式，如果 ......

架构体系 Spark更新时间 2023-06-26

hive ddl

普通建表外部表代表会完全接管，内部表表示删除的时候不会删除HDFS的数据三种建表语句第二种把查询语句作为建一个新表，新表里面就有数据第三种新建的表里面就没有数据 ......

hive ddl更新时间 2023-06-26

hive 定时任务命令或者文件

......

命令任务文件 hive更新时间 2023-06-26

hive最小化部署生产部署 hiveserver2 代理对象和metastore服务

自带的derbe的数据库, 建表后就是在路径下新建了一个文件,映射成表的概念, 同时在yarn会去执行,但是很多数据量很小的操作不会提交到yarn 从stu表读数据的时候用的inputformat 写数据的时候用的outputformat metastore服务保存表名和文件路径之间的映射关系 ......

hiveserver2 hiveserver metastore 对象 hive更新时间 2023-06-26

hive 先生成抽象语法树,在进行逻辑优化,再到屋里计划生成,物理优化,最后再执行

driver 主要的任务是将一条 sql 语句翻译成物理执行计划，例如一个map Reduce任务 deiver驱动器, 词法分析 select (token)from (token) 和语法分析合并成抽象语法树语义分析,分解成一个个的查询单元, 类似于子查询 ......

语法逻辑物理 hive更新时间 2023-06-26

Spark简介

# Spark Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache的顶级项目，2014年5月发布spark1.0，2016年7月发布spark2.0，2020年6月 ......

简介 Spark更新时间 2023-06-25

Spark基础

Spark是一种基于内存的快捷、通用、可扩展的大数据分析引擎 1. Spark模块 Spark Core: Spark核心模块，包含RDD、任务调度、内存管理、错误恢复、与存储系统交互等 Spark SQL：用于处理结构化数据的一个模块，提供了2个编程抽象：DataFrame DataSet，并且作 ......

基础 Spark更新时间 2023-06-24

如何在Databricks中使用Spark进行数据处理与分析

[toc] 1. 《如何在Databricks中使用Spark进行数据处理与分析》随着大数据时代的到来，数据处理与分析变得越来越重要。在数据处理与分析过程中，数据的存储、处理、分析和展示是不可或缺的关键步骤。在数据处理与分析中，Spark是一个强大的开源计算框架，它可以处理大规模分布式数据集，并提 ......

数据处理 Databricks 数据 Spark更新时间 2023-06-22

高可用Hive

## 上传hive，mysql安装包 **下载安装包请参考这篇文章里面的网址：https://www.cnblogs.com/skyrainmom/p/17438858.html** ## 解压包设置权限 ``` [root@master ~]# tar xf apache-hive-2.0.0-b ......

Hive更新时间 2023-06-18

Hive扩展之web界面：hwi接口

**HWI是Hive Web Interface的简称，是hive cli的一个web替换方案，以开发的网页形式查看数据** ## 切换用户启动集群 ``` [root@master ~]# su - hadoop Last login: Tue May 2 13:18:34 CST 2023 on ......

界面接口 Hive web hwi更新时间 2023-06-18

Docker 安装 Hive

一、安装Docker 以及配置Docker-compose环境安装Docker: # 1、切换镜像源 [root@master ~]# wget https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo -O /etc/yu ......

Docker Hive更新时间 2023-06-17

Apache Spark教程_编程入门自学教程_菜鸟教程-免费教程分享

## 教程简介 Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但 ......

教程菜鸟教程 Apache Spark更新时间 2023-06-16

基于Spark的大规模日志分析

摘要：本篇文章将从一个实际项目出发，分享如何使用 Spark 进行大规模日志分析，并通过代码演示加深读者的理解。本文分享自华为云社区《【实战经验分享】基于Spark的大规模日志分析【上进小菜猪大数据系列】》，作者：上进小菜猪。随着互联网的普及和应用范围的扩大，越来越多的应用场景需要对海量数据进行 ......

大规模 Spark 日志更新时间 2023-06-15

Hive常见时间日期函数的使用与问题整理

hive本身提供的时间函数已经很丰富了，基本上能满足我们所有的需求，一些特殊需求也可以通过增加一些数学逻辑实现出来。 ......

函数常见日期时间问题更新时间 2023-06-14

共620篇 :15/21页 首页上一页12131415161718下一页尾页