hadoop hbase hive

基于Hadoop3.1.3安装Hive3.1.2

Hive是什么? \t Hive 是一个基于 Hadoop 的数据仓库工具,它提供了类似 SQL 的查询语言 HQL(Hive Query Language),使得开发人员可以使用类 SQL 语言来查询和处理存储在大规模 分布式文件系统(如 HDFS)中的数据。 Hive有哪些功能? Hive 的主 ......
Hadoop3 Hadoop Hive3 Hive 1.3

[Hadoop] 在集群中安装Hadoop

[Hadoop] 在集群中安装Hadoop 类似的教程其实有很多,网上随便一搜就是一大把。这里简单的记录一下本人的安装过程,留给本人或者后人参考。 集群配置 内网互联的三台机器,IP分别为10.0.0.1,10.0.0.2,10.0.0.3。 我们的目标配置是让10.0.0.1做主节点,也就是mas ......
Hadoop 集群

hadoop 3.3.5伪分布式集群部署

hadoop包下载 https://archive.apache.org/dist/hadoop/common/ 安装好jdk并配置环境变量 下载hadoop压缩包并放至 /data/hadoop目录 解压 tar -zxvf hadoop-3.3.5.tar.gz 1配置 1.1在Hadoop安装 ......
分布式 集群 hadoop

Springboot 系列 (30) - Springboot+HBase 大数据存储(八)| Springboot Client/Server 程序通过 SASL/GSSAPI 访问 Kerberos 实现认证

Kerberos (Secure Network Authentication System,网络安全认证系统),是一种网络认证协议,其设计目标是通过密钥系统为 Client/Server 提供强大的认证服务。该认证过程的实现不依赖于主机操作系统的认证,无需基于的信任,不要求网络上所有主机的物理安全 ......
Springboot Kerberos 程序 数据 Client

【大数据】Hive DDL 操作与视图讲解

一、概述 Hive是建立在Hadoop上的数据仓库工具,它允许用户通过类SQL的语法来查询和管理数据。在Hive中,DDL(数据定义语言)和视图操作是非常常见的。 1)表和视图关系 表和视图都是数据存储的逻辑表示方式。它们之间有以下关系: 视图可以基于一个或多个表创建,而表不可以基于其他表或视图创建 ......
视图 数据 Hive DDL

【大数据】Hive 内置函数和 UDF 讲解

一、概述 Hive是基于Hadoop的一个数据仓库工具,可以将结构化数据文件映射为一张数据库表,并提供类SQL语句操作。Hive内置了很多函数,可以满足基本的查询需求,同时还支持自定义函数(UDF)来实现更加灵活的操作。 官方文档:https://cwiki.apache.org/confluenc ......
函数 数据 Hive UDF

Hadoop之HDFS的API操作文件的上传下载参数的优先级

Hadoop之HDFS的API操作文件的上传下载参数的优先级 package com.itnihao.hdfs; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import o ......
上传下载 优先级 参数 文件 Hadoop

DB - HDFS (Hadoop Distributed File System)

Hadoop Distributed File System,简称 HDFS,是一个分布式文件系统。 HDFS 有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有 ......
Distributed Hadoop System HDFS File

Hadoop运行集群搭建

Hadoop运行集群搭建 虚拟机环境准备 安装虚拟机及基本配置 IP地址192.168.10.100、主机名称hadoop100,内存4G、硬盘50G 测试下虚拟机联网情况 1 [root@hadoop100 ~]# ping www.baidu.com 2 PING www.baidu.com ( ......
集群 Hadoop

【大数据】Hive 分区和分桶的区别及示例讲解

一、概述 在大数据处理过程中,Hive是一种非常常用的数据仓库工具。Hive分区和分桶是优化Hive性能的两种方式,它们的区别如下: 1)分区概述 Hive分区是把数据按照某个属性分成不同的数据子集。 在Hive中,数据被存储在HDFS中,每个分区实际上对应HDFS下的一个文件夹,这个文件夹中保存了 ......
示例 数据 Hive

Mapreduce二次排序时,将jar包上传至Hadoop上运行时,抛出异常"java.util.NoSuchElementException"

查询原因后发现是java中实现实现Mapper时StringTokenizer 类时使用了一个方法nextToken()会抛出这个异常, ”我们可以使用 hasMoreTokens() 和 hasMoreElements() 方法来避免异常。如果标记器的字符串中有更多标记可用,则这两种方法都返回 t ......

Hadoop集群运行

1. 实验一:hadoop 集群运行 实验任务一:配置 Hadoop 格式化 步骤一:NameNode 格式化 [root@master ~]# su - hadoop [hadoop@master ~]$ cd /usr/local/src/hadoop/ 结果: [hadoop@master ~ ......
集群 Hadoop

Hadoop全分布配置

1.实验一:hadoop 全分布配置 1.1. 实验目的 完成本实验,您应该能够: 掌握 hadoop 全分布的配置 掌握 hadoop 全分布的安装 掌握 hadoop 配置文件的参数意义 1.2. 实验要求 熟悉 hadoop 全分布的安装 了解 hadoop 配置文件的意义 1.3. 实验环境 ......
Hadoop

hadoop平台安装

Hadoop平台安装 1.实验一:Linux 操作系统环境设置 1.1. 实验目的 完成本实验,您应该能够: 掌握 linux 操作系统环境设置 掌握 hadoop 安装的环境要求 1.2. 实验要求 熟悉常用 Linux 操作系统命令 熟悉 hadoop 安装的环境 了解 linux 修改系统变量 ......
hadoop 平台

Hive单机安装与测试

安装MySQL并运行 在当前用户下运行 sudo apt update sudo apt install mysql-server 安装成功后启动MySQL服务,运行 sudo service mysql start 查看MySQL的默认用户名和密码,运行 sudo cat /etc/mysql/d ......
单机 Hive

单机版hadoop在Linux环境下的安装和配置

创建hadoop用户 首先打开终端窗口,输入如下命令创建hadoop用户,这条命令创建可以登录的hadoop用户,并使用/bin/bash作为shell: $ sudo useradd -m hadoop -s /bin/bash 接着为hadoop设置登录密码,可简单设为123456,按提示输入两 ......
单机版 单机 环境 hadoop Linux

hive on spark报错

Error in query: Detected implicit cartesian product for LEFT OUTER join between logical plansUnion Join condition is missing or trivial.Either: use th ......
spark hive on

Hadoop启动集群报错:Starting namenodes on [hadoop01] hadoop01: root@hadoop01: Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password).

搭建三个hadoop集群的时候,master没有启动namenode和datanode, 报错: Starting namenodes on [hadoop01]hadoop01: root@hadoop01: Permission denied (publickey,gssapi-keyex,gs ......

Hadoop概述

Hadoop概述 Hadoop是什么 hadoop是一个由Apache基金会所开发的分布式系统基础框架 其主要解决,海量数据的存储和海量数据的的分析计算问题 广义上,Hadoop通常是指一个更加广泛的概念——Hadoop生态圈 Hadoop的发展历史 Hadoop创始人Doug Cutting,为了 ......
Hadoop

2-Hadoop集群配置-安装-启动

1、 流程说明 在单机测试wordcount没问题后,开始配置集群模式 说明: hadoop有几个功能 ​ ① hdfs存 ​ NameNode ​ SecondNameNode ​ DataNode ​ ②yarn资源调度 ​ ResourceManager ​ NodeManager ​ ③ma ......
集群 Hadoop

HBase初步学习与性能测试

###1、HBase定义 HBase(Hadoop Database)是一个分布式、可扩展的NoSQL数据库。基于Big Table,为Hadoop框架当中的结构化数据提供存储服务,是面向列的分布式数据库。这一点与HDFS是不一样的,HDFS是分布式文件系统,管理的是存放在多个硬盘上的数据文件,不支 ......
性能 HBase

Hadoop-HDFS压测】针对HDFS进行读写性能测试

###【Hadoop-HDFS压测】针对HDFS进行读写性能测试 1)测试工具 2)写入数据测试 3)读取数据测试 4)清除数据 ####1)测试工具 Hadoop自身集成的工具包:hadoop-mapreduce-client-jobclient-3.1.1.jar 注意: 1、如果是Apache ......
HDFS Hadoop-HDFS 性能 Hadoop

Hadoop集群搭建总结

对这两天搭建Hadoop集群做个经验总结 master节点:Ubuntu 22.04,也就是我的台式机主机 slave节点:Debian 11,通过VMware虚拟出来 (1)集群节点设置和角色分配 master namenode,datanode,resourcemanager,nodemanag ......
集群 Hadoop

从0-1_Hadoop安装

1、 流程说明 本文参考尚硅谷大数据教程加以整理 1、win10, 安装好xshell/xftp/vmware,搭建虚拟机,克隆3台 2、 配置网络,防火墙,host,hostname , 创建新用户,配置ssh免密 3、上传jdk/hadoop安装包,解压,配置环境变量,wordcount测试 注 ......
Hadoop

头歌平台——Hadoop开发环境搭建

##第1关:配置开发环境 - JavaJDK的配置 (1)创建一个/app文件夹,命令 mkdir /app (2)配置环境变量 解压好JDK之后还需要在环境变量中配置JDK,才可以使用,接下来就来配置JDK。输入命令:vim /etc/profile 编辑配置文件;在文件末尾输入如下代码(不可以有 ......
环境 Hadoop 平台

hbase抽象化处理

一.连接方式 配置文件 package com.jun.hbase.config; import com.jun.hbase.template.HbaseTemplate; import org.apache.hadoop.hbase.HBaseConfiguration; import org.s ......
hbase

Ubuntu系统python连接hive遇到的一些问题

1.第一个问题,sasl这个库安装不上,报 缺少sasl.h的问题(#include <sasl/sasl.h>) 解决方法:sudo apt-get install -y libsasl2-dev gcc python-dev 2.第二个问题,连接的时候报 Could not start SASL ......
Ubuntu python 问题 系统 hive

Hive On Spark调优

第1章 集群环境概述 1.1 集群配置概述 本课程所用集群由5台节点构成 其中2台为master节点: 用于部署HDFS的NameNode Yarn的ResourceManager 另外3台为worker节点,用于部署HDFS的DataNode、Yarn的NodeManager等角色。 Master ......
Spark Hive On

HBase

HBase https://www.cnblogs.com/zhh567/p/17275625.html 用于存储数十亿行数百万列的大数据的kv数据库,基于Google的bigtable论文。Bigtable是一个稀疏的、分布式的、持久的多维排序map。该map以行键、列键、时间戳作为索引,对应的值 ......
HBase

Hadoop操作

基本命令 启动Hadoop start-dfs.sh 确保ssh服务打开了,否则启动不成功 打开ssh服务:sudo /usr/sbin/sshd 创建文件夹 hadoop fs -mkdir 路径 for example! hadoop fs -mkdir /HomeWork 就会在根目录创建一个 ......
Hadoop