Hive

A4--Hive部署

一、版本信息 JDK 1.8 Hive 3.1.3 MySQL 8.0.30 二、安装部署Mysql 参考地址:离线安装MySql8.0(主从模式) 三、安装部署Hive 1. 安装准备 1) 把 apache-hive-3.1.3-bin.tar.gz 上传到 linux 的/opt/src 目录 ......
Hive A4

CDH+Hive部署

CDH介绍: CDH 全称 Cloudera’s Distribution Including Apache Hadoop,是 Cloudera 公司提供的一个 Apache Hadoop 发行版。CDH 将 Hadoop 与其他十几个关键的开源项目集成,并且加入了集群自动化安装、中心化管理、集群监 ......
Hive CDH

Hive 如何巧用分布函数percent_rank()剔除极值求均值

场景描述 前期写过一篇关于剔除订单极值求订单均值的案例,之前使用的是 dense_rank 函数对订单金额进行排序后,过滤掉最大值最小值后进行处理,最近工作刚好使用到分布函数percent_rank,想起来应该也可以用到这个场景; percent_rank() 简介 percent_rank() 函 ......
极值 均值 percent_rank 函数 percent

大数据经典论文解读 - Hive

Hive 基于HDFS和MapReduce提供了一个基本的SQL的数据仓库方案。关键点:在数据库系统设计时,如何把查询语言和计算框架分离,做好对现有系统的复用 设计目标 写SQL执行MapReduce任务 数据模型 从MapReduce任务到SQL语言间存在很多鸿沟 序列化和类型信息,基于SQL的数 ......
经典 数据 论文 Hive

hive 优化

hive 优化 ` -- 合并小文件 set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; -- set hive.input.format=org.apache.hadoop.hive.ql.io.Hi ......
hive

Hive 和 Spark 分区策略剖析

随着技术的不断的发展,大数据领域对于海量数据的存储和处理的技术框架越来越多。在离线数据处理生态系统最具代表性的分布式处理引擎当属Hive和Spark,它们在分区策略方面有着一些相似之处,但也存在一些不同之处。 ......
策略 Spark Hive

azure databricks使用external hive metastore跨工作区共享元数据

为什么要使用external hive metastore可以跨workspace的共享元数据,不用每次创建workspace的时候都重复的把元数据重建一次。更好的元数据集中管理,Create once, use everywhere。为灾难恢复(DR)做好为准备,并降低复杂性。(PAAS一样会存在 ......

hive学习

###什么是hive hive是由Facebook开源,基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张表,并提供类SQL查询功能。 hive主要是用来做海量数据的分析和计算。 hive是一个Hadoop客户端,用于将HQL(hive SQL)转化成mapreduce程序。 hi ......
hive

hive建表语句详解

hive使用create建表语句格式如下: CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PA ......
语句 hive

hive建表语句

hive有三种建表语句 1,create建表 CREATE EXTERNAL TABLE dwd_database.table_name( id BIGINT,user_id STRING,gmt_modified TIMESTAMP,gmt_create TIMESTAMP,pending_rew ......
语句 hive

hive的数据类型

一 hive的数据类型 1.1 基本类型 Hive 的原子数据类型是可以进行隐式转换的,类似于 Java 的类型转换,例如某表达式 使用 INT 类型,TINYINT 会自动转换为 INT 类型,但是 Hive 不会进行反向转化,例如,某表 达式使用 TINYINT 类型,INT 不会自动转换为 T ......
类型 数据 hive

docker 搭建大数据集群(hive、hbase、ZooKeeper、Scala、Spark)

1)本机系统设置 电脑设置虚拟缓存(设置为自动管理) 虚拟机设置内存和CPU 内存设置为8G(或以上) CPU稍微设置高一点(三个虚拟化能开就开) 虚拟机系统配置阿里源 wget -O /etc/yum.repos.d/CentOS-Base.repo https://mirrors.aliyun. ......
集群 ZooKeeper 数据 docker Scala

HIVE库查看版本号

查看hive版本号(web) 1、进入hadoop的CM控制台,找到左边的hive点击进入 2、在hive中,找到状态摘要:Hive Metastore Server 3、在Hive Metastore Server ( Cluster 1 Hive hadoop05 )中,点击‘hadoop05  ......
版本 HIVE

第六章.Hive组件安装配置

第六章.Hive组件安装配置 1.1. 实验目的 完成本实验,您应该能够: 掌握 Hive 组件安装配置 掌握 Hive 组件格式化和启动 1.2. 实验要求 熟悉 Hive 组件安装配置 了解 Hive 组件格式化和启动 1.3. 实验环境 本实验所需之主要资源环境如表 1-1 所示。 | 服务器 ......
组件 Hive

hive引入partition和bucket的概念,中文翻译分别为分区和桶

https://www.cnblogs.com/cxzdy/p/5524477.html hive引入partition和bucket的概念,中文翻译分别为分区和桶(我觉的不是很合适,但是网上基本都是这么翻译,暂时用这个吧),这两个概念都是把数据划分成块,分区是粗粒度的划分桶是细粒度的划分,这样做为 ......
partition 概念 bucket hive

hive和kudu数据之间的互相迁移存在的坑

一、为什么要进行数据迁移 背景:我现在有个需求:需要修改kudu表的主键,主键由1个字段增加为2个字段。因为不能影响下游系统使用kudu表,kudu表表名不能做修改。需要将原kudu表删除后再建新kudu表。 这里存在几个潜在知识点: 1.kudu表修改主键不能使用命令直接修改,必须重新删表然后建表 ......
之间 数据 hive kudu

工良出品:包教会,Hadoop、Hive 搭建部署简易教程

导读 最近一个数据分析朋友需要学习 Hive,刚好我也想学,便利用手头的服务器搭建一个学习环境,但是搭建过程中,发现网上的教程很多过时了,而且部署过程中,很多地方走不通,博主也没有给出对应的说明。花了大力气才从各种资料中完成 Hadoop、Mysql、Hive 三者的部署。 因此,本文记录在 Win ......
教会 简易 教程 Hadoop Hive

Sqoop导出ClickHouse数据到Hive

背景 公司采购了外部服务,其存储为ClickHouse,按照公司要求需要将其数据采集到Hive。 验证环境 CDH: 6.3.2 ClickHouse: 19.15.4.10 Sqoop: 1.4.7 Driver 需要在脚本中明确指明所使用的Driver完整签名。 ClickHouse使用自定义协 ......
ClickHouse 数据 Sqoop Hive

通过Shell脚本自动安装Hive&JDBC测试&提供CDH5网盘地址

〇、参考地址 1、Linux下编写脚本自动安装hive https://blog.csdn.net/weixin_44911081/article/details/121227024?ops_request_misc=%257B%2522request%255Fid%2522%253A%252216 ......
脚本 amp 地址 Shell Hive
共409篇  :14/14页 首页上一页14下一页尾页