hadoop2 hadoop hive 7.2

EMR-hive集成ranger

hive集成ranger:https://help.aliyun.com/zh/emr/emr-on-ecs/user-guide/enable-hive-in-ranger-and-configure-related-permissions ......
EMR-hive ranger hive EMR

Hadoop MapReduce编程规范

用户编写的程序分为三个部分:Mapper、Reducer和Driver 1.Mapper阶段 用户自定义的Mapper要继承自己的父类 Mapper的输入数据是KV对的形式(KV的类型可自定义) Mapper中的业务逻辑写在map()方法中 Mapper的输出数据是KV对的形式(KV的类型可自定义) ......
MapReduce Hadoop

四、Hive优化

1.1 hive的随机抓取策略 理论上来说,Hive中的所有sql都需要进行mapreduce,但是hive的抓取策略帮我们 省略掉了这个过程,把切片split的过程提前帮我们做了。 set hive.fetch.task.conversion=none; (一旦进行这么设置,select字段名也是 ......
Hive

三、Hive学习之SQL、函数

SQL练习 1、count(*)、count(1) 、count('字段名') 区别 从执行结果来看 count(*)包括了所有的列,相当于行数,在统计结果的时候,不会忽略列值为NULL 最慢的 count(1)包括了忽略所有列,用1代表代码行,在统计结果的时候,不会忽略列值为NULL 最快的 co ......
函数 Hive SQL

Hadoop NameNode(SecondaryNameNode) Fsimage和Edits解析

NameNode被格式化之后,将在NameNode目录下产生一些文件 1.Fsimage文件 Fsimage文件是HDFS文件系统元数据的一个永久性的检查点,其中包含HDFS文件系统的所有目录和文件inode的序列化信息 2.Edits文件 Edits文件存放了HDFS文件系统的所有更新操作的路径, ......

Hadoop 配置的优先级

从低到高 1.默认配置 默认文件 文件存放在Hadoop的jar包中的位置 core-default.xml hadoop-common-3.3.6.jar/core-default.xml hdfs-default.xml hadoop-hdfs-3.3.6.jar/hdfs-default.xm ......
优先级 Hadoop

Java实现对Hadoop HDFS的API操作

1.配置Hadoop的Windows客户端 Hadoop 配置Windows 客户端 2.新建Maven项目[略] 3.添加依赖 <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-client --> <dependen ......
Hadoop Java HDFS API

Hadoop 配置Windows 客户端

1.根据Hadoop版本下载Windows依赖,并放置到非中文目录下 https://github.com/cdarlint/winutils 2.配置环境变量 HADOOP_HOME -> 放置的目录地址 PATH -> 追加%HADOOP_HOME%\bin 3.测试环境 双击winutils. ......
客户端 Windows 客户 Hadoop

Hadoop HDFS 文件块大小

HDFS中的文件在物理上是分块存储(Block),块的大小可以通过配置参数(dfs.blocksize)来配置,默认大小在Hadoop2.x/3.x版本中是128M,1.x版本中是64M. 建议配置为物理机硬盘每秒的读取速度,如机械硬盘则建议为128M,SSD则配置为256M。 ......
大小 文件 Hadoop HDFS

基于Docker容器搭建hadoop完全分布式集群环境

简介 物理机:windows10 宿主机:Centos7虚拟机,需要安装Docker服务 hadoop集群节点:3个centos7的容器,hadoop1、hadoop2、hadoop3 组件: 容器镜像:Centos7 Docker CE 24.0.7 JDK1.8.0_181 Hadoop3.1. ......
分布式 集群 容器 环境 Docker

Hadoop 常用端口号

端口名称 Hadoop2.x Hadoop3.x HDFS NameNode内部通信端口 8020 / 9000 8020 / 9000 / 9820 HDFS NameNode HTTP UI 50070 9870 YARN MapReduce查看执行任务端口 8088 8088 历史服务器通信端 ......
口号 常用 Hadoop

二、Hive学习

1、Hive分区(十分重要!!) 在大数据中,最常见的一种思想就是分治,我们可以把大的文件切割划分成一个个的小的文件,这样每次操作一个个小的文件就会很容易了,同样的道理,在hive当中也是支持这种思想的,就是我们可以把大的数据,按照每天或者每小时切分成一个个小的文件,这样去操作小的文件就会容易很多了 ......
Hive

一、Hive概述与安装部署

1、Hive基本概念 1.1 Hive简介 Hive本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据存储,说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具,甚至更近一步说hive就是一个MapReduce客户端。 思考:计算文件user.txt中 ......
Hive

Hive与MySQL的版本关系

Hive支持的MySQL版本 Hive的元数据存储在MySQL数据库中,因此必须要安装和配置MySQL,以便与Hive配合使用。但是,Hive不支持所有MySQL版本,以下是Hive所支持的MySQL版本: MySQL 5.5.x (推荐) MySQL 5.6.x MySQL 5.7.x MySQL ......
版本 MySQL Hive

虚拟机运行Hadoop | 各种问题解决的心路历程

ps:完成大数据技术实验报告的过程,出项各种稀奇古怪的问题。(知道这叫什么吗?经济基础决定上层建筑,我当时配置可能留下了一堆隐患,总之如果有同样的问题,希望可以帮到你) 一、虚拟机网络连接不通的各种情况 我这里遇到的是,三台虚拟机,两台piing百度不同 原因:改了下内存,重启就又未知的网络名称 解 ......
心路 历程 Hadoop 问题

hive身份验证

Hive 通过HiveServer2对外提供服务,HiveServer2 是一种能使客户端执行 Hive 查询的服务。 HiveServer2 实现了一个新的基于 Thrift 的 RPC 接口,该接口可以处理客户端并发请求。当前版本支持 Kerberos,LDAP 以及自定义可插拔身份验证。新的 ......
身份 hive

EMR-hive集成openldap

LDAP认证:https://help.aliyun.com/zh/emr/emr-on-ecs/user-guide/use-ldap-authentication?spm=a2c4g.11186623.0.i4 OpenLDAP试用说明参考:https://help.aliyun.com/zh/ ......
EMR-hive openldap hive EMR

最新版本——Hadoop3.3.6单机版完全部署指南

大家好,我是独孤风,大数据流动的作者。 本文基于最新的 Hadoop 3.3.6 的版本编写,带大家通过单机版充分了解 Apache Hadoop 的使用。本文更强调实践,实践是大数据学习的重要环节,也能在实践中对该技术有更深的理解,所以一些理论知识建议大家多阅读相关的书籍(都在资料包中)。 本文档 ......
单机版 单机 Hadoop3 版本 指南

实验6熟悉的hive的基本操作

今天完成了大数据实验六的hive的基本操作 参照实验6 熟悉Hive的基本操作_hive环境搭建实验报告-CSDN博客、 这位博主的代码,但是前期的启动hive并没有按照博主的来,启动hive大家参照我之前的一篇博客来就行 我是从黑马教程跟着下载的hive ......
基本操作 hive

hive执行sql报错 FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask

前言: 执行hive sql报错,sql逻辑是两个表左连接并将数据插入新的表中。 报错信息: [ERROR] 2023-12-05 15:49:49.165 +0800 - execute sql error: Error while processing statement: FAILED: Ex ......
hive MapredLocalTask Execution FAILED apache

DBeaver连接hive

配置maven仓库:窗口,首选项,连接,驱动,Maven,添加 https://repo.huaweicloud.com/repository/maven/ ......
DBeaver hive

hadoop大数据安装

一、hadoop的安装1、hadoop的安装wget https://archive.apache.org/dist/hadoop/common/hadoop-3.1.3/hadoop-3.1.3.tar.gz2、解压tar -zxvf hadoop-3.1.3.tar.gz -C /opt/mod ......
数据 hadoop

hadoop优化之yarn调优

yarn.nodemanager.resource.memory-mb表示该节点上YARN可使用的物理内存总量,默认是8192(MB),注意,如果你的节点内存资源不够8GB,则需要调减小这个值,而YARN不会智能的探测节点的物理内存总量。 yarn.nodemanager.vmem-pmem-rat ......
hadoop yarn

datax采集txt文件数据到hive

1、提前创建hive表结构 DROP TABLE IF EXISTS ods.ods_log_1diu; CREATE TABLE IF NOT EXISTS ods.ods_log_1diu ( SI_NO STRING, --varchar(10) not null,主键 SEND_TABLE ......
文件 数据 datax hive txt

start-dfs.sh启动hadoop,jps没显示

查看当前系统的名称 [root@master dfs]# cat /etc/hosts 192.168.128.78 hadoop01 查看core-site.xml <property> <name>fs.defaultFS</name> <value>hdfs://hadoop01:9000</ ......
start-dfs hadoop start dfs jps

关于hadoop hive中使用hive分区功能

很多人习惯了使用第三方的工具 去连接hive或者hbase数据库,并且 使用其中的sql编辑器进行失去了语句 的使用来进行数据的分析等一系列的 操作,但是一些shell命令也可以在其中 运行例如: 1. set hive.exec.dynamic.partition=true; 2. set hiv ......
hive 功能 hadoop

七、Hadoop优化

优化1:Combiner 使用之前 使用之后 减少的了reduce 从map拉取数据的过程,提高计算效率。 hadoop 的计算特点:将计算任务向数据靠拢,而不是将数据向计算靠拢。 特点:数据本地化,减少网络io。 首先需要知道,hadoop数据本地化是指的map任务,reduce任务并不具备数据本 ......
Hadoop

centos7.5 hadoop NAT 静态IP网络环境搭建

1 设置 VMware 网络环境 1. 选择VMNet8 并将子网IP 修改为 192.168.10.0,保证集群ip都在这个网段下 2. 选择NAT 设置,配置NAT的网关为 192.168.10.2 2 设置 windows11 网络环境 1. 打开 控制面板\网络和 Internet\网络连接 ......
静态 centos7 环境 centos hadoop

hive向表中导入数据出现FAILED: SemanticException

完整错误信息 FAILED: SemanticException Line 1:23 Invalid path ''~/Downloads/stocks.csv'': No files matching path file:/home/lcz/~/Downloads/stocks.csv 路径错误, ......
SemanticException 数据 FAILED hive

Hadoop集群部署后相关WEB界面打不开大概原因

集群部署完毕后,查看相关WEB界面,打不开的原因可能如下: 1、可以先去检查LINUX(CentOS7)机器的防火墙是否关闭,命令如下: systemctl status firewalld.service (查看防火墙状态) (如果显示为关闭状态,则进行下一步; 如果显示尚未关闭,则进行关闭并设定 ......
集群 界面 原因 Hadoop WEB