hadoop3 hadoop hive3 hive

Hive扩展之web界面:hwi接口

**HWI是Hive Web Interface的简称,是hive cli的一个web替换方案,以开发的网页形式查看数据** ## 切换用户启动集群 ``` [root@master ~]# su - hadoop Last login: Tue May 2 13:18:34 CST 2023 on ......
界面 接口 Hive web hwi

WIN10安装配置Hadoop

原文链接:WIN10安装配置Hadoop【作者:余生】 本文记录在WIN10上hadoop单节点的安装,后续再记录多节点分布式的安装。 1、安装JAVA环境 下载JDK8,官网链接:Java SE Development Kit 8 选择64版本:jdk-8u241-windows-x64.exe ......
Hadoop WIN 10

Docker 安装 Hive

一、安装Docker 以及 配置Docker-compose环境 安装Docker: # 1、切换镜像源 [root@master ~]# wget https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo -O /etc/yu ......
Docker Hive

Hive常见时间日期函数的使用与问题整理

hive本身提供的时间函数已经很丰富了,基本上能满足我们所有的需求,一些特殊需求也可以通过增加一些数学逻辑实现出来。 ......
函数 常见 日期 时间 问题

hadoop优化部分参数

yarn-site.xml: #表示该节点服务器上yarn可以使用的虚拟CPU个数,默认是8,推荐将值配置与物理核心个数相同 yarn.nodemanager.resource.cpu-vcores: 24 #设置该节点上yarn可使用的内存,默认为8G,如果节点内存资源不足8G,要减少这个值,ya ......
参数 部分 hadoop

hadoop状态和任务监控

``` # -*- coding: UTF-8 -*- import mysql.connector import sys import datetime import importlib import requests importlib.reload(sys) #修改hadoop地址参数为实际地 ......
状态 任务 hadoop

【大数据】大数据 Hadoop 管理工具 Apache Ambari(HDP)

[TOC] ## 一、概述 `Apache Ambari` **是 Hortonworks 贡献给Apache开源社区的顶级项目,它是一个基于web的工具,用于安装、配置、管理和监视 Hadoop 集群。** Ambari 目前已支持大多数 Hadoop 组件,包括 HDFS、MapReduce、H ......
数据 管理工具 工具 Hadoop Apache

Hive执行计划之只有map阶段SQL性能分析和解读

这种只含map的操作,如果文件大小控制在合适的情况下,都将只有本地操作,其执行非常高效,运行效率完全不输于在计算引擎Tez和Spark上运行。 ......
性能分析 性能 阶段 只有 Hive

数据库:Hadoop实验

# Hadoop实验 1. 先单机下载、安装hadoop,启动: ```shell bin/hdfs namenode -format sbin/start-all.sh ``` 2. 腾讯云新建三个机器,分别在两地(香港二区、香港三区),分别命名为master、slave1、slave2。 3. ......
数据库 数据 Hadoop

大数据学习笔记hadoop、hive、java

HDFS伪分布式集群搭建 tar -zxvf hadoop-2.7.7.tar.gzecho $JAVA_HOME/root/software/jdk1.8.0_221​#查看loaclhostvim /root/software/hadoop-2.7.7/etc/hadoop/hadoop-env ......
笔记 数据 hadoop hive java

Hive执行计划之什么是hiveSQL向量化模式及优化详解

Hive开启向量化模式也是hiveSQL优化方法中的一种,可以提升hive查询速率,也叫hive矢量化。 问题1:那么什么是hive向量化模式呢? 问题2:hive向量化什么情况下可以被使用,或者说它有哪些使用场景呢? 问题3:如何查看hive向量化使用的相关信息? ## 1.什么是hive向量化模 ......
hiveSQL 模式 Hive

【Hive】窗口函数

窗口函数介绍: 概述: 窗口函数指的是 over()函数, 它可以结合特定的函数一起使用, 完成不同的功能. ​ 目的/作用: ​ 窗口函数 = 给表新增一列, 至于新增的内容是什么, 取决于窗口函数和什么函数一起使用. 格式: 能和窗口函数一起使用的函数 over(partition by 分组字 ......
函数 Hive

【Interview】Hive原理及调优

关于Hive的参数配置: Hive的参数配置有 3 种配置方式: 方式1: 在hive的配置文件中直接进行修改. 方式2: 在开启Hive服务的时候, 设置参数 nohup hive --service hiveserver2 --hiveconf 参数名=参数值 & 方式3: 通过 set方式进行 ......
Interview 原理 Hive

【Hive】DML及DQL语句

由于Hive是分布式语言(其本质是操作了HDFS上的文件,因为HSFS是分布式架构,所以就决定了Hive是一门分布式SQL)。丢,我解释的可能不是很专业,将就看看。通常来说存储在HDFS上的数据是不能修改的,但是appendTofile这个linux命令是个特例(hadoop fs -appendT ......
语句 Hive DML DQL

Hive-DQL(续)及函数

Hive--DQL 正则匹配 正则表达式(Regexp)介绍: 概述: ​ 正确的, 符合特定规则的字符串. Regular Expression 细节: 正则表达式不独属于任意的一种语言, 市场上大多数的语言都支持正则, 例如: Java, Python, HiveSQL, JavaScript等 ......
函数 Hive-DQL Hive DQL

Hive-DDL

学会了Hive的一些操作,发现Hive建过表,后续的数据并不是向MySQL是通过自己手写进行插入的,而是将TXT文件解析成为数据表的操作。其实是HDFS将文件映射成Hive表,然后然后通过写类SQL的语句来操作该文件,底层会被解析成为MR程序。 Hive的本质 把HDFS文件映射成一张Hive表, ......
Hive-DDL Hive DDL

hadoop学习

Hadoop 概述 1、Hadoop是什么 Hadoop是一个由Apache基金会开发的分布式系统基础架构; 主要解决海量数据的存储和分析计算问题; 广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈; 【Hadoop 三大发行版本】 Apache:版本最原始(最基础)的版本,对 ......
hadoop

Hive执行计划之hive依赖及权限查询和常见使用场景

[TOC] ## 概述 Hive查看执行计划的命令中还有两个不怎么常用但很重要的命令,接下来详细介绍一下。 有一个问题:**如何在hiveSQL执行之前就探查到这段逻辑的血缘依赖关系?** hive血缘是很多生产级数仓必须要提供的功能,大多数解决方案都是**使用hive hooks的方法通过SQL执 ......
场景 权限 常见 Hive hive

Hadoop的完全分布式搭建

# Hadoop分布式安装 ## 集群规划 | 主机名 | Hadoop10 | Hadoop11 | Hadoop12 | | | | | | | 网络 | 192.168.10.10 | 192.168.10.11 | 192.168.10.12 | | 用户 | hadooproot | ha ......
分布式 Hadoop

hadoop集群搭建(docker)

1.准备安装包(hadoop-3.3.2.tar.gz和jdk-8u371-linux-x64.tar.gz) 2.创建Dockerfile文件: # 镜像源 FROM centos:7 # 添加元数据 LABEL author="作者" date="2023/05/30" # 安装openssh- ......
集群 hadoop docker

Hive - 多种表类型的CURD测试

关于torc、textfile、orc、es、hyperdrive表的CURD测试 TORC(支持事务的orc表)测试 TORC(分区表)测试 TEXTFILE 表测试 ORC 表测试 ES(ElasticSearch表)测试 hyperdrive 表测试 TORC(支持事务的orc表)测试 -- ......
多种 类型 Hive CURD

Hive - hive 安装部署

Hadoop - 分布式部署 > Hive - 安装部署 准备工作 安装部署 准备工作 Hive版本:apache-hive-3.1.2 Hive官网:https://hive.apache.org/ Hive下载地址:https://downloads.apache.org/hive/ 角色部署: ......
Hive hive

Hadoop - hadoop自带MR案例:词频 WordCount

词频 Word Count 1、在浏览器上访问 https://node01:9870 2、创建目录 /user 目录 bin/hdfs dfs -mkdir /user 如果未配置环境变量,需要到hadoop安装目录下执行 /opt/module/hadoop-2.5.2(这个是我的安装目录) 3 ......
词频 WordCount 案例 Hadoop hadoop

RDS 、HDFS、 mapreduce 、spark 、hive、 hbase 、zookeeper 、kafka 、flume、mysql 安装时之间配置文件是如何依赖的?

这些技术是大数据领域的常用组件,它们之间的配置文件依赖关系如下: RDS是一种关系型数据库,可以独立安装和使用,不需要依赖其他组件。 HDFS是Hadoop分布式文件系统,通常与MapReduce一起使用。在Hadoop集群中,HDFS需要配置core-site.xml和hdfs-site.xml两 ......
mapreduce zookeeper 之间 文件 hbase

Hive执行计划之一文读懂Hive执行计划

**目录** [TOC] ## 概述 Hive的执行计划描述了一个hiveSQL语句的具体执行步骤,通过执行计划解读可以了解hiveSQL语句被解析器转换为相应程序语言的执行逻辑。通过执行逻辑可以知晓HiveSQL运行流程,进而对流程进行优化,实现更优的数据查询处理。 同样,通过执行计划,还可以了解 ......
Hive

Hadoop - 执行start-dfs.sh、stop-dfs.sh 报错处理

执行 sbin/start-dfs.sh 和 sbin/stop-dfs.sh 报错,且进程仍然在 ......
start-dfs dfs stop-dfs Hadoop start

Hadoop - 两个Namenode都是standby状态怎么处理

在任意一个standby的NN节点执行 [root@node02 hadoop-2.5.2]# bin/hdfs haadmin -transitionToActive --forcemanual nn1 You have specified the forcemanual flag. This f ......
Namenode 状态 两个 standby Hadoop

Hadoop - 分布式部署

Zookeeper的分布式部署 >> Hadoop的分布式部署 集群规划 安装部署 集群规划 序号 主机名 JDK Zookeeper NameNode JournalNode DataNode ResourceManager NodeManager 1 node01 JDK ZK NN JN DN ......
分布式 Hadoop

hive初识

## **HIVE的认识:** #### 定义: hive 是基于 hadoop 的数据仓库工具,将结构化的数据映射成一张表,提供sql查询功能,可以对数据提取,转化,加载, 简而言之:查询和分析存储在 hadoop大规模的数据工具,离线的大数据分析 #### hive在hadoop的生态圈 hiv ......
hive

Spark集成Hive

### 命令行集成Hive 将hive中的`hive-site.xml`配置文件拷贝到spark配置文件目录下,仅需要以下内容 ```xml hive.metastore.warehouse.dir /user/hive/warehouse javax.jdo.option.ConnectionUR ......
Spark Hive