spark-hive spark hive

Flink 的 checkpoint 机制对比 spark 有什么不同和优势？

spark streaming 的 checkpoint 仅仅是针对 driver 的故障恢复做了数据和元数据的 checkpoint。而 flink 的checkpoint 机制要复杂很多，它采用的是轻量级的分布式快照，实现了每个算子的快照，及流动中的数据的快照。 ......

checkpoint 机制优势 Flink spark更新时间 2023-06-14

Hive执行计划之只有map阶段SQL性能分析和解读

这种只含map的操作，如果文件大小控制在合适的情况下，都将只有本地操作，其执行非常高效，运行效率完全不输于在计算引擎Tez和Spark上运行。 ......

性能分析性能阶段只有 Hive更新时间 2023-06-13

大数据学习笔记hadoop、hive、java

HDFS伪分布式集群搭建 tar -zxvf hadoop-2.7.7.tar.gzecho $JAVA_HOME/root/software/jdk1.8.0_221#查看loaclhostvim /root/software/hadoop-2.7.7/etc/hadoop/hadoop-env ......

笔记数据 hadoop hive java更新时间 2023-06-09

Hive执行计划之什么是hiveSQL向量化模式及优化详解

Hive开启向量化模式也是hiveSQL优化方法中的一种，可以提升hive查询速率，也叫hive矢量化。问题1：那么什么是hive向量化模式呢？问题2：hive向量化什么情况下可以被使用，或者说它有哪些使用场景呢？问题3：如何查看hive向量化使用的相关信息？ ## 1.什么是hive向量化模 ......

hiveSQL 模式 Hive更新时间 2023-06-09

【Hive】窗口函数

窗口函数介绍: 概述: 窗口函数指的是 over()函数, 它可以结合特定的函数一起使用, 完成不同的功能. 目的/作用: 窗口函数 = 给表新增一列, 至于新增的内容是什么, 取决于窗口函数和什么函数一起使用. 格式: 能和窗口函数一起使用的函数 over(partition by 分组字 ......

函数 Hive更新时间 2023-06-08

【Interview】Hive原理及调优

关于Hive的参数配置: Hive的参数配置有 3 种配置方式: 方式1: 在hive的配置文件中直接进行修改. 方式2: 在开启Hive服务的时候, 设置参数 nohup hive --service hiveserver2 --hiveconf 参数名=参数值 & 方式3: 通过 set方式进行 ......

Interview 原理 Hive更新时间 2023-06-08

【Hive】DML及DQL语句

由于Hive是分布式语言(其本质是操作了HDFS上的文件，因为HSFS是分布式架构，所以就决定了Hive是一门分布式SQL)。丢，我解释的可能不是很专业，将就看看。通常来说存储在HDFS上的数据是不能修改的，但是appendTofile这个linux命令是个特例(hadoop fs -appendT ......

语句 Hive DML DQL更新时间 2023-06-08

Hive-DQL(续)及函数

Hive--DQL 正则匹配正则表达式(Regexp)介绍: 概述: 正确的, 符合特定规则的字符串. Regular Expression 细节: 正则表达式不独属于任意的一种语言, 市场上大多数的语言都支持正则, 例如: Java, Python, HiveSQL, JavaScript等 ......

函数 Hive-DQL Hive DQL更新时间 2023-06-08

Hive-DDL

学会了Hive的一些操作，发现Hive建过表，后续的数据并不是向MySQL是通过自己手写进行插入的，而是将TXT文件解析成为数据表的操作。其实是HDFS将文件映射成Hive表，然后然后通过写类SQL的语句来操作该文件，底层会被解析成为MR程序。 Hive的本质把HDFS文件映射成一张Hive表, ......

Hive-DDL Hive DDL更新时间 2023-06-08

Hive执行计划之hive依赖及权限查询和常见使用场景

[TOC] ## 概述 Hive查看执行计划的命令中还有两个不怎么常用但很重要的命令，接下来详细介绍一下。有一个问题：**如何在hiveSQL执行之前就探查到这段逻辑的血缘依赖关系？** hive血缘是很多生产级数仓必须要提供的功能，大多数解决方案都是**使用hive hooks的方法通过SQL执 ......

场景权限常见 Hive hive更新时间 2023-06-07

Spark基础

# Spark基础 [toc] ## 1 Spark简介 ### 1.1 Spark介绍 - 什么是Spark 1. Apache Spark is an open source cluster computing system that aims to make data analytics fa ......

基础 Spark更新时间 2023-06-07

docker安装spark

curl -L "https://github.com/docker/compose/releases/download/1.29.2/docker-compose-$(uname -s)-$(uname -m)" -o /usr/local/bin/docker-compose chmod +x ......

docker spark更新时间 2023-06-07

如何在window上使用spark

关于怎么使用spark在windos系统？下载anaconda下载spark怎么用呢？步骤1：打开anaconda prompt，激活步骤2：安装需要导入的东西步骤3：打开Jupyter Notebook，使用下面命令在一个py文件中步骤4：使用import导入成功使用 ......

window spark更新时间 2023-06-07

Hive - 多种表类型的CURD测试

关于torc、textfile、orc、es、hyperdrive表的CURD测试 TORC（支持事务的orc表）测试 TORC（分区表）测试 TEXTFILE 表测试 ORC 表测试 ES（ElasticSearch表）测试 hyperdrive 表测试 TORC（支持事务的orc表）测试 -- ......

多种类型 Hive CURD更新时间 2023-06-07

spark调用HTTP请求并返回数据落地到数仓(or数据库)

POM xml复制代码 com.alibaba fastjson spark-sql依赖 --> org.apache.spark spark-sql_${scala.tools.version} org.apache.spark spark-hive_${scala.tools.version} ......

数据数据库 spark HTTP更新时间 2023-06-07

Hive - hive 安装部署

Hadoop - 分布式部署 > Hive - 安装部署准备工作安装部署准备工作 Hive版本：apache-hive-3.1.2 Hive官网：https://hive.apache.org/ Hive下载地址：https://downloads.apache.org/hive/ 角色部署： ......

Hive hive更新时间 2023-06-07

RDS 、HDFS、 mapreduce 、spark 、hive、 hbase 、zookeeper 、kafka 、flume、mysql 安装时之间配置文件是如何依赖的？

这些技术是大数据领域的常用组件，它们之间的配置文件依赖关系如下： RDS是一种关系型数据库，可以独立安装和使用，不需要依赖其他组件。 HDFS是Hadoop分布式文件系统，通常与MapReduce一起使用。在Hadoop集群中，HDFS需要配置core-site.xml和hdfs-site.xml两 ......

mapreduce zookeeper 之间文件 hbase更新时间 2023-06-06

Hive执行计划之一文读懂Hive执行计划

**目录** [TOC] ## 概述 Hive的执行计划描述了一个hiveSQL语句的具体执行步骤，通过执行计划解读可以了解hiveSQL语句被解析器转换为相应程序语言的执行逻辑。通过执行逻辑可以知晓HiveSQL运行流程，进而对流程进行优化，实现更优的数据查询处理。同样，通过执行计划，还可以了解 ......

Hive更新时间 2023-06-06

Spark消费Kafka

0. 前言之前先写了处理数据的spark，用文件读写测了一批数据，能跑出结果；今天调通了Kafka，拼在一起，没有半点输出，查了半天，发现是之前的处理部分出了问题，把一个不等号打成了等号，把数据全filter没了。很恐怖，我保证这段时间我没动过这段代码，但上次真的跑出东西了啊（尖叫 1. 配置流程 ......

Spark Kafka更新时间 2023-06-05

Spark搭建

# Spark搭建 ## Local模式 > 主要用于本地开发测试 > > 本文档主要介绍如何在IDEA中配置Spark开发环境 * 打开IDEA，创建Maven项目 * 在IDEA设置中安装Scala插件 ![img](https://img2023.cnblogs.com/blog/286504 ......

Spark更新时间 2023-06-04

hive初识

## **HIVE的认识：** #### 定义： hive 是基于 hadoop 的数据仓库工具，将结构化的数据映射成一张表，提供sql查询功能，可以对数据提取，转化，加载，简而言之：查询和分析存储在 hadoop大规模的数据工具，离线的大数据分析 #### hive在hadoop的生态圈 hiv ......

hive更新时间 2023-06-03

Spark集成Hive

### 命令行集成Hive 将hive中的`hive-site.xml`配置文件拷贝到spark配置文件目录下，仅需要以下内容 ```xml hive.metastore.warehouse.dir /user/hive/warehouse javax.jdo.option.ConnectionUR ......

Spark Hive更新时间 2023-06-02

Spark3.x扩展内容

### 3.0.0主要的新特性： 1. 在TPC-DS基准测试中，通过启用自适应查询执行、动态分区裁剪等其他优化措施，相比于Spark 2.4，性能提升了2倍 2. 兼容ANSI SQL 3. 对pandas API的重大改进，包括python类型hints及其他的pandas UDFs 4. 简化 ......

内容 Spark3 Spark更新时间 2023-06-02

为什么使用Flink替代Spark？

一，Flink是真正的流处理，延迟在毫秒级，Spark Streaming是微批，延迟在秒级。二，Flink可以处理事件时间，而Spark Streaming只能处理机器时间，无法保证时间语义的正确性。三，Flink的检查点算法比Spark Streaming更加灵活，性能更高。Spark St ......

Flink Spark更新时间 2023-06-02

Spark性能优化

### 性能优化分析一个计算任务的执行主要依赖于CPU、内存、带宽 Spark是一个基于内存的计算引擎，所以对它来说，影响最大的可能就是内存，一般我们的任务遇到了性能瓶颈大概率都是内存的问题，当然了CPU和带宽也可能会影响程序的性能，这个情况也不是没有的，只是比较少。 Spark性能优化，其实主要 ......

性能 Spark更新时间 2023-06-02

Spark扩展内容

### 宽依赖和窄依赖 - 窄依赖(Narrow Dependency)：指父RDD的每个分区只被子RDD的一个分区所使用，例如map、filter等这些算子一个RDD，对它的父RDD只有简单的一对一的关系，也就是说，RDD的每个partition仅仅依赖于父RDD中的一个partition，父R ......

内容 Spark更新时间 2023-06-02

Spark之RDD相关

### 创建RDD RDD是Spark编程的核心，在进行Spark编程时，首要任务是创建一个初始的RDD，这样就相当于设置了Spark应用程序的输入源数据然后在创建了初始的RDD之后，才可以通过Spark 提供的一些高阶函数，对这个RDD进行操作，来获取其它的RDD Spark提供三种创建RDD方 ......

Spark RDD更新时间 2023-06-02

Spark实战

### WordCount程序这个需求就是类似于我们在学习MapReduce的时候写的案例需求这样的：读取文件中的所有内容，计算每个单词出现的次数注意：由于Spark支持Java、Scala这些语言，目前在企业中大部分公司都是使用Scala语言进行开发，个别公司会使用java进行开发，为了加深 ......

实战 Spark更新时间 2023-06-02

Spark详解

### 什么是Spark Spark是一个用于大规模数据处理的统一计算引擎注意：Spark不仅仅可以做类似于MapReduce的离线数据计算，还可以做实时数据计算，并且它还可以实现类似于Hive的SQL计算，等等，所以说它是一个统一的计算引擎既然说到了Spark，那就不得不提一下Spark里面最 ......

Spark更新时间 2023-06-02

hive - beeline命令行可以使用的命令

beeline> !help !all Execute the specified SQL against all the current connections !autocommit Set autocommit mode on or off !batch Start or execute a ......

命令 beeline hive更新时间 2023-06-01

共620篇 :16/21页 首页上一页13141516171819下一页尾页