hadoop3 hadoop hive3 hive

Hadoop的运行模式

Hadoop官方网站 http://hadoop.apache.org/ Hadoop运行模式 本地模式:单机运行,只是用来演示一下官方案例。生产环境不用。 伪分布式模式:也是单机运行,但是具备Hadoop集群的所有功能,一台服务器模拟一个分布式的环境。个别缺钱的公司用来测试,生产环境不用。 完全分 ......
模式 Hadoop

hadoop前期环境搭建

主机名 ip ssh免密登陆 #修改主机名 hostnamectl set-hostname node1 #修改ip地址 vim /etc/sysconfig/network-scripts/ifcfg-ens33 #node1 IPADDR="192.168.88.101" NETMASK="22 ......
前期 环境 hadoop

【大数据】Hive Join 的原理与机制

一、概述 Hive是一个基于Hadoop的数据仓库解决方案,它提供了类似于SQL的查询语言,称为HiveQL,用于处理结构化数据。在Hive中,JOIN操作用于将两个或多个表中的数据连接在一起,以便进行联合查询和分析。 Hive 中 的 Join 可分为 Common Join(Reduce阶段完成 ......
原理 机制 数据 Hive Join

基于Hadoop3.1.3安装Hive3.1.2

Hive是什么? \t Hive 是一个基于 Hadoop 的数据仓库工具,它提供了类似 SQL 的查询语言 HQL(Hive Query Language),使得开发人员可以使用类 SQL 语言来查询和处理存储在大规模 分布式文件系统(如 HDFS)中的数据。 Hive有哪些功能? Hive 的主 ......
Hadoop3 Hadoop Hive3 Hive 1.3

[Hadoop] 在集群中安装Hadoop

[Hadoop] 在集群中安装Hadoop 类似的教程其实有很多,网上随便一搜就是一大把。这里简单的记录一下本人的安装过程,留给本人或者后人参考。 集群配置 内网互联的三台机器,IP分别为10.0.0.1,10.0.0.2,10.0.0.3。 我们的目标配置是让10.0.0.1做主节点,也就是mas ......
Hadoop 集群

hadoop 3.3.5伪分布式集群部署

hadoop包下载 https://archive.apache.org/dist/hadoop/common/ 安装好jdk并配置环境变量 下载hadoop压缩包并放至 /data/hadoop目录 解压 tar -zxvf hadoop-3.3.5.tar.gz 1配置 1.1在Hadoop安装 ......
分布式 集群 hadoop

【大数据】Hive DDL 操作与视图讲解

一、概述 Hive是建立在Hadoop上的数据仓库工具,它允许用户通过类SQL的语法来查询和管理数据。在Hive中,DDL(数据定义语言)和视图操作是非常常见的。 1)表和视图关系 表和视图都是数据存储的逻辑表示方式。它们之间有以下关系: 视图可以基于一个或多个表创建,而表不可以基于其他表或视图创建 ......
视图 数据 Hive DDL

【大数据】Hive 内置函数和 UDF 讲解

一、概述 Hive是基于Hadoop的一个数据仓库工具,可以将结构化数据文件映射为一张数据库表,并提供类SQL语句操作。Hive内置了很多函数,可以满足基本的查询需求,同时还支持自定义函数(UDF)来实现更加灵活的操作。 官方文档:https://cwiki.apache.org/confluenc ......
函数 数据 Hive UDF

Hadoop之HDFS的API操作文件的上传下载参数的优先级

Hadoop之HDFS的API操作文件的上传下载参数的优先级 package com.itnihao.hdfs; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import o ......
上传下载 优先级 参数 文件 Hadoop

DB - HDFS (Hadoop Distributed File System)

Hadoop Distributed File System,简称 HDFS,是一个分布式文件系统。 HDFS 有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有 ......
Distributed Hadoop System HDFS File

Hadoop运行集群搭建

Hadoop运行集群搭建 虚拟机环境准备 安装虚拟机及基本配置 IP地址192.168.10.100、主机名称hadoop100,内存4G、硬盘50G 测试下虚拟机联网情况 1 [root@hadoop100 ~]# ping www.baidu.com 2 PING www.baidu.com ( ......
集群 Hadoop

【大数据】Hive 分区和分桶的区别及示例讲解

一、概述 在大数据处理过程中,Hive是一种非常常用的数据仓库工具。Hive分区和分桶是优化Hive性能的两种方式,它们的区别如下: 1)分区概述 Hive分区是把数据按照某个属性分成不同的数据子集。 在Hive中,数据被存储在HDFS中,每个分区实际上对应HDFS下的一个文件夹,这个文件夹中保存了 ......
示例 数据 Hive

Mapreduce二次排序时,将jar包上传至Hadoop上运行时,抛出异常"java.util.NoSuchElementException"

查询原因后发现是java中实现实现Mapper时StringTokenizer 类时使用了一个方法nextToken()会抛出这个异常, ”我们可以使用 hasMoreTokens() 和 hasMoreElements() 方法来避免异常。如果标记器的字符串中有更多标记可用,则这两种方法都返回 t ......

Hadoop集群运行

1. 实验一:hadoop 集群运行 实验任务一:配置 Hadoop 格式化 步骤一:NameNode 格式化 [root@master ~]# su - hadoop [hadoop@master ~]$ cd /usr/local/src/hadoop/ 结果: [hadoop@master ~ ......
集群 Hadoop

Hadoop全分布配置

1.实验一:hadoop 全分布配置 1.1. 实验目的 完成本实验,您应该能够: 掌握 hadoop 全分布的配置 掌握 hadoop 全分布的安装 掌握 hadoop 配置文件的参数意义 1.2. 实验要求 熟悉 hadoop 全分布的安装 了解 hadoop 配置文件的意义 1.3. 实验环境 ......
Hadoop

hadoop平台安装

Hadoop平台安装 1.实验一:Linux 操作系统环境设置 1.1. 实验目的 完成本实验,您应该能够: 掌握 linux 操作系统环境设置 掌握 hadoop 安装的环境要求 1.2. 实验要求 熟悉常用 Linux 操作系统命令 熟悉 hadoop 安装的环境 了解 linux 修改系统变量 ......
hadoop 平台

Hive单机安装与测试

安装MySQL并运行 在当前用户下运行 sudo apt update sudo apt install mysql-server 安装成功后启动MySQL服务,运行 sudo service mysql start 查看MySQL的默认用户名和密码,运行 sudo cat /etc/mysql/d ......
单机 Hive

单机版hadoop在Linux环境下的安装和配置

创建hadoop用户 首先打开终端窗口,输入如下命令创建hadoop用户,这条命令创建可以登录的hadoop用户,并使用/bin/bash作为shell: $ sudo useradd -m hadoop -s /bin/bash 接着为hadoop设置登录密码,可简单设为123456,按提示输入两 ......
单机版 单机 环境 hadoop Linux

hive on spark报错

Error in query: Detected implicit cartesian product for LEFT OUTER join between logical plansUnion Join condition is missing or trivial.Either: use th ......
spark hive on

Hadoop启动集群报错:Starting namenodes on [hadoop01] hadoop01: root@hadoop01: Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password).

搭建三个hadoop集群的时候,master没有启动namenode和datanode, 报错: Starting namenodes on [hadoop01]hadoop01: root@hadoop01: Permission denied (publickey,gssapi-keyex,gs ......

Hadoop概述

Hadoop概述 Hadoop是什么 hadoop是一个由Apache基金会所开发的分布式系统基础框架 其主要解决,海量数据的存储和海量数据的的分析计算问题 广义上,Hadoop通常是指一个更加广泛的概念——Hadoop生态圈 Hadoop的发展历史 Hadoop创始人Doug Cutting,为了 ......
Hadoop

2-Hadoop集群配置-安装-启动

1、 流程说明 在单机测试wordcount没问题后,开始配置集群模式 说明: hadoop有几个功能 ​ ① hdfs存 ​ NameNode ​ SecondNameNode ​ DataNode ​ ②yarn资源调度 ​ ResourceManager ​ NodeManager ​ ③ma ......
集群 Hadoop

Hadoop-HDFS压测】针对HDFS进行读写性能测试

###【Hadoop-HDFS压测】针对HDFS进行读写性能测试 1)测试工具 2)写入数据测试 3)读取数据测试 4)清除数据 ####1)测试工具 Hadoop自身集成的工具包:hadoop-mapreduce-client-jobclient-3.1.1.jar 注意: 1、如果是Apache ......
HDFS Hadoop-HDFS 性能 Hadoop

Hadoop集群搭建总结

对这两天搭建Hadoop集群做个经验总结 master节点:Ubuntu 22.04,也就是我的台式机主机 slave节点:Debian 11,通过VMware虚拟出来 (1)集群节点设置和角色分配 master namenode,datanode,resourcemanager,nodemanag ......
集群 Hadoop

从0-1_Hadoop安装

1、 流程说明 本文参考尚硅谷大数据教程加以整理 1、win10, 安装好xshell/xftp/vmware,搭建虚拟机,克隆3台 2、 配置网络,防火墙,host,hostname , 创建新用户,配置ssh免密 3、上传jdk/hadoop安装包,解压,配置环境变量,wordcount测试 注 ......
Hadoop

头歌平台——Hadoop开发环境搭建

##第1关:配置开发环境 - JavaJDK的配置 (1)创建一个/app文件夹,命令 mkdir /app (2)配置环境变量 解压好JDK之后还需要在环境变量中配置JDK,才可以使用,接下来就来配置JDK。输入命令:vim /etc/profile 编辑配置文件;在文件末尾输入如下代码(不可以有 ......
环境 Hadoop 平台

Ubuntu系统python连接hive遇到的一些问题

1.第一个问题,sasl这个库安装不上,报 缺少sasl.h的问题(#include <sasl/sasl.h>) 解决方法:sudo apt-get install -y libsasl2-dev gcc python-dev 2.第二个问题,连接的时候报 Could not start SASL ......
Ubuntu python 问题 系统 hive

Hive On Spark调优

第1章 集群环境概述 1.1 集群配置概述 本课程所用集群由5台节点构成 其中2台为master节点: 用于部署HDFS的NameNode Yarn的ResourceManager 另外3台为worker节点,用于部署HDFS的DataNode、Yarn的NodeManager等角色。 Master ......
Spark Hive On

Hadoop操作

基本命令 启动Hadoop start-dfs.sh 确保ssh服务打开了,否则启动不成功 打开ssh服务:sudo /usr/sbin/sshd 创建文件夹 hadoop fs -mkdir 路径 for example! hadoop fs -mkdir /HomeWork 就会在根目录创建一个 ......
Hadoop

datax从hive向pg同步踩的坑

1. [INFO] 2023-04-21 14:11:00.836 - [taskAppId=TASK-9296114303648_1-2137236-2376388]:[61] - -> 2023-04-21 14:11:00.783 [job-0] ERROR RetryUtil - Excep ......
datax hive