Hive

A4--Hive部署

一、版本信息 JDK 1.8 Hive 3.1.3 MySQL 8.0.30 二、安装部署Mysql 参考地址：离线安装MySql8.0(主从模式) 三、安装部署Hive 1. 安装准备 1）把 apache-hive-3.1.3-bin.tar.gz 上传到 linux 的/opt/src 目录 ......

Hive A4更新时间 2023-04-04

CDH+Hive部署

CDH介绍： CDH 全称 Cloudera’s Distribution Including Apache Hadoop，是 Cloudera 公司提供的一个 Apache Hadoop 发行版。CDH 将 Hadoop 与其他十几个关键的开源项目集成，并且加入了集群自动化安装、中心化管理、集群监 ......

Hive CDH更新时间 2023-04-04

Hive 如何巧用分布函数percent_rank()剔除极值求均值

场景描述前期写过一篇关于剔除订单极值求订单均值的案例，之前使用的是 dense_rank 函数对订单金额进行排序后，过滤掉最大值最小值后进行处理，最近工作刚好使用到分布函数percent_rank，想起来应该也可以用到这个场景； percent_rank() 简介 percent_rank() 函 ......

极值均值 percent_rank 函数 percent更新时间 2023-04-03

大数据经典论文解读 - Hive

Hive 基于HDFS和MapReduce提供了一个基本的SQL的数据仓库方案。关键点：在数据库系统设计时，如何把查询语言和计算框架分离，做好对现有系统的复用设计目标写SQL执行MapReduce任务数据模型从MapReduce任务到SQL语言间存在很多鸿沟序列化和类型信息，基于SQL的数 ......

经典数据论文 Hive更新时间 2023-04-03

hive 优化

hive 优化 ` -- 合并小文件 set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; -- set hive.input.format=org.apache.hadoop.hive.ql.io.Hi ......

hive更新时间 2023-04-03

Hive 和 Spark 分区策略剖析

随着技术的不断的发展，大数据领域对于海量数据的存储和处理的技术框架越来越多。在离线数据处理生态系统最具代表性的分布式处理引擎当属Hive和Spark，它们在分区策略方面有着一些相似之处，但也存在一些不同之处。 ......

策略 Spark Hive更新时间 2023-04-03

azure databricks使用external hive metastore跨工作区共享元数据

为什么要使用external hive metastore可以跨workspace的共享元数据，不用每次创建workspace的时候都重复的把元数据重建一次。更好的元数据集中管理，Create once, use everywhere。为灾难恢复(DR)做好为准备，并降低复杂性。（PAAS一样会存在 ......

工作区 databricks metastore external 数据更新时间 2023-03-31

hive学习

###什么是hive hive是由Facebook开源，基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射成一张表，并提供类SQL查询功能。 hive主要是用来做海量数据的分析和计算。 hive是一个Hadoop客户端，用于将HQL（hive SQL）转化成mapreduce程序。 hi ......

hive更新时间 2023-03-31

hive建表语句详解

hive使用create建表语句格式如下: CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PA ......

语句 hive更新时间 2023-03-30

hive建表语句

hive有三种建表语句 1,create建表 CREATE EXTERNAL TABLE dwd_database.table_name( id BIGINT,user_id STRING,gmt_modified TIMESTAMP,gmt_create TIMESTAMP,pending_rew ......

语句 hive更新时间 2023-03-30

hive的数据类型

一 hive的数据类型 1.1 基本类型 Hive 的原子数据类型是可以进行隐式转换的，类似于 Java 的类型转换，例如某表达式使用 INT 类型，TINYINT 会自动转换为 INT 类型，但是 Hive 不会进行反向转化，例如，某表达式使用 TINYINT 类型，INT 不会自动转换为 T ......

类型数据 hive更新时间 2023-03-30

docker 搭建大数据集群（hive、hbase、ZooKeeper、Scala、Spark）

1）本机系统设置电脑设置虚拟缓存（设置为自动管理）虚拟机设置内存和CPU 内存设置为8G（或以上） CPU稍微设置高一点（三个虚拟化能开就开）虚拟机系统配置阿里源 wget -O /etc/yum.repos.d/CentOS-Base.repo https://mirrors.aliyun. ......

集群 ZooKeeper 数据 docker Scala更新时间 2023-03-28

HIVE库查看版本号

查看hive版本号（web） 1、进入hadoop的CM控制台，找到左边的hive点击进入 2、在hive中，找到状态摘要：Hive Metastore Server 3、在Hive Metastore Server ( Cluster 1 Hive hadoop05 )中，点击‘hadoop05 ......

版本 HIVE更新时间 2023-03-26

第六章.Hive组件安装配置

第六章.Hive组件安装配置 1.1. 实验目的完成本实验，您应该能够：掌握 Hive 组件安装配置掌握 Hive 组件格式化和启动 1.2. 实验要求熟悉 Hive 组件安装配置了解 Hive 组件格式化和启动 1.3. 实验环境本实验所需之主要资源环境如表 1-1 所示。 | 服务器 ......

组件 Hive更新时间 2023-03-24

hive引入partition和bucket的概念，中文翻译分别为分区和桶

https://www.cnblogs.com/cxzdy/p/5524477.html hive引入partition和bucket的概念，中文翻译分别为分区和桶（我觉的不是很合适，但是网上基本都是这么翻译，暂时用这个吧），这两个概念都是把数据划分成块，分区是粗粒度的划分桶是细粒度的划分，这样做为 ......

partition 概念 bucket hive更新时间 2023-03-23

hive和kudu数据之间的互相迁移存在的坑

一、为什么要进行数据迁移背景：我现在有个需求：需要修改kudu表的主键，主键由1个字段增加为2个字段。因为不能影响下游系统使用kudu表，kudu表表名不能做修改。需要将原kudu表删除后再建新kudu表。这里存在几个潜在知识点： 1.kudu表修改主键不能使用命令直接修改，必须重新删表然后建表 ......

之间数据 hive kudu更新时间 2023-03-22

工良出品：包教会，Hadoop、Hive 搭建部署简易教程

导读最近一个数据分析朋友需要学习 Hive，刚好我也想学，便利用手头的服务器搭建一个学习环境，但是搭建过程中，发现网上的教程很多过时了，而且部署过程中，很多地方走不通，博主也没有给出对应的说明。花了大力气才从各种资料中完成 Hadoop、Mysql、Hive 三者的部署。因此，本文记录在 Win ......

教会简易教程 Hadoop Hive更新时间 2023-03-22

Sqoop导出ClickHouse数据到Hive

背景公司采购了外部服务，其存储为ClickHouse，按照公司要求需要将其数据采集到Hive。验证环境 CDH: 6.3.2 ClickHouse: 19.15.4.10 Sqoop: 1.4.7 Driver 需要在脚本中明确指明所使用的Driver完整签名。 ClickHouse使用自定义协 ......

ClickHouse 数据 Sqoop Hive更新时间 2023-03-22

通过Shell脚本自动安装Hive&JDBC测试&提供CDH5网盘地址

〇、参考地址 1、Linux下编写脚本自动安装hive https://blog.csdn.net/weixin_44911081/article/details/121227024?ops_request_misc=%257B%2522request%255Fid%2522%253A%252216 ......

脚本 amp 地址 Shell Hive更新时间 2023-03-22

共409篇 :14/14页 首页上一页11121314下一页尾页