hadoop3 hadoop hive3 hive
Hadoop的运行模式
Hadoop官方网站 http://hadoop.apache.org/ Hadoop运行模式 本地模式:单机运行,只是用来演示一下官方案例。生产环境不用。 伪分布式模式:也是单机运行,但是具备Hadoop集群的所有功能,一台服务器模拟一个分布式的环境。个别缺钱的公司用来测试,生产环境不用。 完全分 ......
hadoop前期环境搭建
主机名 ip ssh免密登陆 #修改主机名 hostnamectl set-hostname node1 #修改ip地址 vim /etc/sysconfig/network-scripts/ifcfg-ens33 #node1 IPADDR="192.168.88.101" NETMASK="22 ......
【大数据】Hive Join 的原理与机制
一、概述 Hive是一个基于Hadoop的数据仓库解决方案,它提供了类似于SQL的查询语言,称为HiveQL,用于处理结构化数据。在Hive中,JOIN操作用于将两个或多个表中的数据连接在一起,以便进行联合查询和分析。 Hive 中 的 Join 可分为 Common Join(Reduce阶段完成 ......
基于Hadoop3.1.3安装Hive3.1.2
Hive是什么? \t Hive 是一个基于 Hadoop 的数据仓库工具,它提供了类似 SQL 的查询语言 HQL(Hive Query Language),使得开发人员可以使用类 SQL 语言来查询和处理存储在大规模 分布式文件系统(如 HDFS)中的数据。 Hive有哪些功能? Hive 的主 ......
[Hadoop] 在集群中安装Hadoop
[Hadoop] 在集群中安装Hadoop 类似的教程其实有很多,网上随便一搜就是一大把。这里简单的记录一下本人的安装过程,留给本人或者后人参考。 集群配置 内网互联的三台机器,IP分别为10.0.0.1,10.0.0.2,10.0.0.3。 我们的目标配置是让10.0.0.1做主节点,也就是mas ......
hadoop 3.3.5伪分布式集群部署
hadoop包下载 https://archive.apache.org/dist/hadoop/common/ 安装好jdk并配置环境变量 下载hadoop压缩包并放至 /data/hadoop目录 解压 tar -zxvf hadoop-3.3.5.tar.gz 1配置 1.1在Hadoop安装 ......
【大数据】Hive DDL 操作与视图讲解
一、概述 Hive是建立在Hadoop上的数据仓库工具,它允许用户通过类SQL的语法来查询和管理数据。在Hive中,DDL(数据定义语言)和视图操作是非常常见的。 1)表和视图关系 表和视图都是数据存储的逻辑表示方式。它们之间有以下关系: 视图可以基于一个或多个表创建,而表不可以基于其他表或视图创建 ......
【大数据】Hive 内置函数和 UDF 讲解
一、概述 Hive是基于Hadoop的一个数据仓库工具,可以将结构化数据文件映射为一张数据库表,并提供类SQL语句操作。Hive内置了很多函数,可以满足基本的查询需求,同时还支持自定义函数(UDF)来实现更加灵活的操作。 官方文档:https://cwiki.apache.org/confluenc ......
Hadoop之HDFS的API操作文件的上传下载参数的优先级
Hadoop之HDFS的API操作文件的上传下载参数的优先级 package com.itnihao.hdfs; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import o ......
DB - HDFS (Hadoop Distributed File System)
Hadoop Distributed File System,简称 HDFS,是一个分布式文件系统。 HDFS 有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有 ......
Hadoop运行集群搭建
Hadoop运行集群搭建 虚拟机环境准备 安装虚拟机及基本配置 IP地址192.168.10.100、主机名称hadoop100,内存4G、硬盘50G 测试下虚拟机联网情况 1 [root@hadoop100 ~]# ping www.baidu.com 2 PING www.baidu.com ( ......
【大数据】Hive 分区和分桶的区别及示例讲解
一、概述 在大数据处理过程中,Hive是一种非常常用的数据仓库工具。Hive分区和分桶是优化Hive性能的两种方式,它们的区别如下: 1)分区概述 Hive分区是把数据按照某个属性分成不同的数据子集。 在Hive中,数据被存储在HDFS中,每个分区实际上对应HDFS下的一个文件夹,这个文件夹中保存了 ......
Mapreduce二次排序时,将jar包上传至Hadoop上运行时,抛出异常"java.util.NoSuchElementException"
查询原因后发现是java中实现实现Mapper时StringTokenizer 类时使用了一个方法nextToken()会抛出这个异常, ”我们可以使用 hasMoreTokens() 和 hasMoreElements() 方法来避免异常。如果标记器的字符串中有更多标记可用,则这两种方法都返回 t ......
Hadoop集群运行
1. 实验一:hadoop 集群运行 实验任务一:配置 Hadoop 格式化 步骤一:NameNode 格式化 [root@master ~]# su - hadoop [hadoop@master ~]$ cd /usr/local/src/hadoop/ 结果: [hadoop@master ~ ......
Hadoop全分布配置
1.实验一:hadoop 全分布配置 1.1. 实验目的 完成本实验,您应该能够: 掌握 hadoop 全分布的配置 掌握 hadoop 全分布的安装 掌握 hadoop 配置文件的参数意义 1.2. 实验要求 熟悉 hadoop 全分布的安装 了解 hadoop 配置文件的意义 1.3. 实验环境 ......
hadoop平台安装
Hadoop平台安装 1.实验一:Linux 操作系统环境设置 1.1. 实验目的 完成本实验,您应该能够: 掌握 linux 操作系统环境设置 掌握 hadoop 安装的环境要求 1.2. 实验要求 熟悉常用 Linux 操作系统命令 熟悉 hadoop 安装的环境 了解 linux 修改系统变量 ......
Hive单机安装与测试
安装MySQL并运行 在当前用户下运行 sudo apt update sudo apt install mysql-server 安装成功后启动MySQL服务,运行 sudo service mysql start 查看MySQL的默认用户名和密码,运行 sudo cat /etc/mysql/d ......
单机版hadoop在Linux环境下的安装和配置
创建hadoop用户 首先打开终端窗口,输入如下命令创建hadoop用户,这条命令创建可以登录的hadoop用户,并使用/bin/bash作为shell: $ sudo useradd -m hadoop -s /bin/bash 接着为hadoop设置登录密码,可简单设为123456,按提示输入两 ......
hive on spark报错
Error in query: Detected implicit cartesian product for LEFT OUTER join between logical plansUnion Join condition is missing or trivial.Either: use th ......
Hadoop启动集群报错:Starting namenodes on [hadoop01] hadoop01: root@hadoop01: Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password).
搭建三个hadoop集群的时候,master没有启动namenode和datanode, 报错: Starting namenodes on [hadoop01]hadoop01: root@hadoop01: Permission denied (publickey,gssapi-keyex,gs ......
Hadoop概述
Hadoop概述 Hadoop是什么 hadoop是一个由Apache基金会所开发的分布式系统基础框架 其主要解决,海量数据的存储和海量数据的的分析计算问题 广义上,Hadoop通常是指一个更加广泛的概念——Hadoop生态圈 Hadoop的发展历史 Hadoop创始人Doug Cutting,为了 ......
2-Hadoop集群配置-安装-启动
1、 流程说明 在单机测试wordcount没问题后,开始配置集群模式 说明: hadoop有几个功能 ① hdfs存 NameNode SecondNameNode DataNode ②yarn资源调度 ResourceManager NodeManager ③ma ......
Hadoop-HDFS压测】针对HDFS进行读写性能测试
###【Hadoop-HDFS压测】针对HDFS进行读写性能测试 1)测试工具 2)写入数据测试 3)读取数据测试 4)清除数据 ####1)测试工具 Hadoop自身集成的工具包:hadoop-mapreduce-client-jobclient-3.1.1.jar 注意: 1、如果是Apache ......
Hadoop集群搭建总结
对这两天搭建Hadoop集群做个经验总结 master节点:Ubuntu 22.04,也就是我的台式机主机 slave节点:Debian 11,通过VMware虚拟出来 (1)集群节点设置和角色分配 master namenode,datanode,resourcemanager,nodemanag ......
从0-1_Hadoop安装
1、 流程说明 本文参考尚硅谷大数据教程加以整理 1、win10, 安装好xshell/xftp/vmware,搭建虚拟机,克隆3台 2、 配置网络,防火墙,host,hostname , 创建新用户,配置ssh免密 3、上传jdk/hadoop安装包,解压,配置环境变量,wordcount测试 注 ......
头歌平台——Hadoop开发环境搭建
##第1关:配置开发环境 - JavaJDK的配置 (1)创建一个/app文件夹,命令 mkdir /app (2)配置环境变量 解压好JDK之后还需要在环境变量中配置JDK,才可以使用,接下来就来配置JDK。输入命令:vim /etc/profile 编辑配置文件;在文件末尾输入如下代码(不可以有 ......
Ubuntu系统python连接hive遇到的一些问题
1.第一个问题,sasl这个库安装不上,报 缺少sasl.h的问题(#include <sasl/sasl.h>) 解决方法:sudo apt-get install -y libsasl2-dev gcc python-dev 2.第二个问题,连接的时候报 Could not start SASL ......
Hive On Spark调优
第1章 集群环境概述 1.1 集群配置概述 本课程所用集群由5台节点构成 其中2台为master节点: 用于部署HDFS的NameNode Yarn的ResourceManager 另外3台为worker节点,用于部署HDFS的DataNode、Yarn的NodeManager等角色。 Master ......
Hadoop操作
基本命令 启动Hadoop start-dfs.sh 确保ssh服务打开了,否则启动不成功 打开ssh服务:sudo /usr/sbin/sshd 创建文件夹 hadoop fs -mkdir 路径 for example! hadoop fs -mkdir /HomeWork 就会在根目录创建一个 ......
datax从hive向pg同步踩的坑
1. [INFO] 2023-04-21 14:11:00.836 - [taskAppId=TASK-9296114303648_1-2137236-2376388]:[61] - -> 2023-04-21 14:11:00.783 [job-0] ERROR RetryUtil - Excep ......