spark-hive spark hive

通过 docker-compose 快速部署 Hive 详细教程

一、概述其实通过 docker-compose 部署 hive 是在继上篇文章 Hadoop 部署的基础之上叠加的，Hive 做为最常用的数仓服务，所以是有必要进行集成的，感兴趣的小伙伴请认真阅读我以下内容，通过 docker-compose 部署的服务主要是用最少的资源和时间成本快速部署服务，方 ......

docker-compose compose 教程 docker Hive更新时间 2023-04-05

Hadoop、Hive和Spark的关系

大数据技术生态中，Hadoop、Hive、Spark是什么关系？| 通俗易懂科普向 Hadoop、Hive和Spark，都是大数据相关的系统和技术。大数据也是数据管理系统的范畴。数据管理系统涉及两个方面的问题，一个是数据怎么存储？一个是数据怎么计算？为了方便理解，我们需要从单机的时代来讲解。在 ......

Hadoop Spark Hive更新时间 2023-04-05

大数据经典论文解读 - Spark

Spark Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing 可看作一个支持多轮迭代的MapReduce模型，但是引入了 RDD 这样的函数式对象的数据集概念。Sp ......

经典数据论文 Spark更新时间 2023-04-04

A7--Spark部署

一、版本信息 JDK 1.8 spark 3.2.1 二、安装部署 1）上传解压缩文件 tar -zxvf spark-3.2.1-bin-hadoop3.2.tgz 2）配置环境变量 vim /etc/profile # Spark export SPARK_HOME=/opt/spark-3.2 ......

Spark A7更新时间 2023-04-04

A4--Hive部署

一、版本信息 JDK 1.8 Hive 3.1.3 MySQL 8.0.30 二、安装部署Mysql 参考地址：离线安装MySql8.0(主从模式) 三、安装部署Hive 1. 安装准备 1）把 apache-hive-3.1.3-bin.tar.gz 上传到 linux 的/opt/src 目录 ......

Hive A4更新时间 2023-04-04

CDH+Hive部署

CDH介绍： CDH 全称 Cloudera’s Distribution Including Apache Hadoop，是 Cloudera 公司提供的一个 Apache Hadoop 发行版。CDH 将 Hadoop 与其他十几个关键的开源项目集成，并且加入了集群自动化安装、中心化管理、集群监 ......

Hive CDH更新时间 2023-04-04

Hive 如何巧用分布函数percent_rank()剔除极值求均值

场景描述前期写过一篇关于剔除订单极值求订单均值的案例，之前使用的是 dense_rank 函数对订单金额进行排序后，过滤掉最大值最小值后进行处理，最近工作刚好使用到分布函数percent_rank，想起来应该也可以用到这个场景； percent_rank() 简介 percent_rank() 函 ......

极值均值 percent_rank 函数 percent更新时间 2023-04-03

大数据经典论文解读 - Hive

Hive 基于HDFS和MapReduce提供了一个基本的SQL的数据仓库方案。关键点：在数据库系统设计时，如何把查询语言和计算框架分离，做好对现有系统的复用设计目标写SQL执行MapReduce任务数据模型从MapReduce任务到SQL语言间存在很多鸿沟序列化和类型信息，基于SQL的数 ......

经典数据论文 Hive更新时间 2023-04-03

hive 优化

hive 优化 ` -- 合并小文件 set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; -- set hive.input.format=org.apache.hadoop.hive.ql.io.Hi ......

hive更新时间 2023-04-03

Hive 和 Spark 分区策略剖析

随着技术的不断的发展，大数据领域对于海量数据的存储和处理的技术框架越来越多。在离线数据处理生态系统最具代表性的分布式处理引擎当属Hive和Spark，它们在分区策略方面有着一些相似之处，但也存在一些不同之处。 ......

策略 Spark Hive更新时间 2023-04-03

idea中spark安装

Idea中spark的安装配置下载Scala插件后新建scala项目更改scala的SDK(下载的版本)和jdk并且更改工作空间导入spark相关的架包找到安装路径导入jars或者lib(找到Libraries添加ScalaSDK和java) 设置maven全局的参数(导入maven的安装路径 ......

spark idea更新时间 2023-04-02

Spark源码解析（二）：Spark闭包检查

一、理解 Scala 闭包：Closures 1.1 闭包的定义闭包就是一个函数和与其相关的引用环境组合的一个整体(实体)。进一步说，闭包是绑定了自由变量的函数实例。通常来讲，闭包的实现机制是定义一个特殊的数据结构，保存了函数地址指针与闭包创建时的函数的词法环境以及绑定自由变量。对于闭包最好的 ......

闭包 Spark 源码更新时间 2023-03-31

Spark源码解析（一）：RDD之Transfrom算子

一、延迟计算 RDD 代表的是分布式数据形态，因此，RDD 到 RDD 之间的转换，本质上是数据形态上的转换（Transformations）在 RDD 的编程模型中，一共有两种算子，Transformations 类算子和 Actions 类算子。开发者需要使用 Transformations ......

算子 Transfrom 源码 Spark RDD更新时间 2023-03-31

azure databricks使用external hive metastore跨工作区共享元数据

为什么要使用external hive metastore可以跨workspace的共享元数据，不用每次创建workspace的时候都重复的把元数据重建一次。更好的元数据集中管理，Create once, use everywhere。为灾难恢复(DR)做好为准备，并降低复杂性。（PAAS一样会存在 ......

工作区 databricks metastore external 数据更新时间 2023-03-31

hive学习

###什么是hive hive是由Facebook开源，基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射成一张表，并提供类SQL查询功能。 hive主要是用来做海量数据的分析和计算。 hive是一个Hadoop客户端，用于将HQL（hive SQL）转化成mapreduce程序。 hi ......

hive更新时间 2023-03-31

常用spark优化参数

常用spark优化参数强制使用spark engine set tqs.query.engine.type = sparkCli; set spark.yarn.priority = 4; 双写HDFS开启： set spark.shuffle.hdfs.enable=true; set spar ......

常用参数 spark更新时间 2023-03-30

hive建表语句详解

hive使用create建表语句格式如下: CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PA ......

语句 hive更新时间 2023-03-30

hive建表语句

hive有三种建表语句 1,create建表 CREATE EXTERNAL TABLE dwd_database.table_name( id BIGINT,user_id STRING,gmt_modified TIMESTAMP,gmt_create TIMESTAMP,pending_rew ......

语句 hive更新时间 2023-03-30

hive的数据类型

一 hive的数据类型 1.1 基本类型 Hive 的原子数据类型是可以进行隐式转换的，类似于 Java 的类型转换，例如某表达式使用 INT 类型，TINYINT 会自动转换为 INT 类型，但是 Hive 不会进行反向转化，例如，某表达式使用 TINYINT 类型，INT 不会自动转换为 T ......

类型数据 hive更新时间 2023-03-30

docker 搭建大数据集群（hive、hbase、ZooKeeper、Scala、Spark）

1）本机系统设置电脑设置虚拟缓存（设置为自动管理）虚拟机设置内存和CPU 内存设置为8G（或以上） CPU稍微设置高一点（三个虚拟化能开就开）虚拟机系统配置阿里源 wget -O /etc/yum.repos.d/CentOS-Base.repo https://mirrors.aliyun. ......

集群 ZooKeeper 数据 docker Scala更新时间 2023-03-28

Spark任务调试（Scala开发语言）

// 将dataframe存储到hdfs myDF.write.orc("hdfs://nsxxxx/user/admin/dir") // 读取操作 val mdf = spark.read.orc("hdfs://nsxxxx/user/admin/dir") ......

任务语言 Spark Scala更新时间 2023-03-27

HIVE库查看版本号

查看hive版本号（web） 1、进入hadoop的CM控制台，找到左边的hive点击进入 2、在hive中，找到状态摘要：Hive Metastore Server 3、在Hive Metastore Server ( Cluster 1 Hive hadoop05 )中，点击‘hadoop05 ......

版本 HIVE更新时间 2023-03-26

Spark入门到精通

一、Spark简介 1. 概念 Apache Spark 是一个开源的分布式计算系统，最初由加州大学伯克利分校的AMPLab（Algorithms, Machines, and People Lab）开发，并于2010年加入Apache基金会进行开源。Spark 提供了一种统一的数据处理引擎，支持在 ......

Spark更新时间 2023-03-25

大数据之—Spark环境搭建

前言参考：https://blog.csdn.net/wzb1983/article/details/125761231 官网：http://spark.apache.org/downloads.html 软件仓库：https://archive.apache.org/dist/spark/ 软件 ......

环境数据 Spark更新时间 2023-03-24

第六章.Hive组件安装配置

第六章.Hive组件安装配置 1.1. 实验目的完成本实验，您应该能够：掌握 Hive 组件安装配置掌握 Hive 组件格式化和启动 1.2. 实验要求熟悉 Hive 组件安装配置了解 Hive 组件格式化和启动 1.3. 实验环境本实验所需之主要资源环境如表 1-1 所示。 | 服务器 ......

组件 Hive更新时间 2023-03-24

hive引入partition和bucket的概念，中文翻译分别为分区和桶

https://www.cnblogs.com/cxzdy/p/5524477.html hive引入partition和bucket的概念，中文翻译分别为分区和桶（我觉的不是很合适，但是网上基本都是这么翻译，暂时用这个吧），这两个概念都是把数据划分成块，分区是粗粒度的划分桶是细粒度的划分，这样做为 ......

partition 概念 bucket hive更新时间 2023-03-23

一次spark任务提交参数的优化

起因新接触一个spark集群，明明集群资源（core,内存）还有剩余，但是提交的任务却申请不到资源。分析环境 spark 2.2.0 基于yarn集群参数 spark任务提交参数中最重要的几个： spark-submit --master yarn --driver-cores 1 --dr ......

参数任务 spark更新时间 2023-03-23

hive和kudu数据之间的互相迁移存在的坑

一、为什么要进行数据迁移背景：我现在有个需求：需要修改kudu表的主键，主键由1个字段增加为2个字段。因为不能影响下游系统使用kudu表，kudu表表名不能做修改。需要将原kudu表删除后再建新kudu表。这里存在几个潜在知识点： 1.kudu表修改主键不能使用命令直接修改，必须重新删表然后建表 ......

之间数据 hive kudu更新时间 2023-03-22

工良出品：包教会，Hadoop、Hive 搭建部署简易教程

导读最近一个数据分析朋友需要学习 Hive，刚好我也想学，便利用手头的服务器搭建一个学习环境，但是搭建过程中，发现网上的教程很多过时了，而且部署过程中，很多地方走不通，博主也没有给出对应的说明。花了大力气才从各种资料中完成 Hadoop、Mysql、Hive 三者的部署。因此，本文记录在 Win ......

教会简易教程 Hadoop Hive更新时间 2023-03-22

《关于我因为flink成为spark源码贡献者这件小事》

各位读者老爷请放下手上的板砖，我可真没有标题党，且容老弟慢慢道来。 spark和flink本身相信我不用做过多的介绍，后端同学不管搞没搞过大数据，应该都多多少少听过。如果没听过，简单说，spark和flink之于大数据，就好比vue和react之于前端，就好比spring家族之于java。从20 ......

贡献者源码小事贡献 flink更新时间 2023-03-22

共620篇 :20/21页 首页上一页1718192021下一页尾页