hadoop

hadoop集群配置 CentOS7 JDK安装 卸载

1 JDK下载 下载JDK8 下载地址 2 SSH访问需要安装JDK的服务器 3 检查是否有默认安装的JDK java-version 4 卸载自带JDK 4.1 检查系统安装的OpenJDK rpm -qa|grep openjdk -i 4.2 删除以上四项openjdk的安装包并且检查后显示删 ......
集群 CentOS7 hadoop CentOS JDK

Hadoop版本下载和介绍

1 下载地址 1.1 官网:官网下载 1.2 旧版本下载(官方的archive地址):旧版本下载 1.3 清华大学开源软件镜像站下载(速度较快,只有新版本):清华大学开源软件镜像站 2 common\core\client的区别 2.1 Hadoop-common Hadoop-Common是指支持 ......
版本 Hadoop

Windows 环境下Docker 安装伪分布式 Hadoop

# 1、环境 Windows 11 Docker 20.0.2 # 2、拉取镜像 我选择 ubuntu20.04: ```powershell docker pull ubuntu:20.04 ``` ![在这里插入图片描述](https://img-blog.csdnimg.cn/6d91edc5 ......
分布式 Windows 环境 Docker Hadoop

hadoop如何为用户赋予操作权限

#首先使用vi命令在hdfs-site.xml最后加上下面配置 <property><name>dfs.permissions.superusergroup</name><value>自定义组名</value></property> #把用户添加到组,先进入root模式 usermod -a -G ......
权限 用户 hadoop

大数据面试题集锦-Hadoop面试题(三)-MapReduce

> 你准备好面试了吗?这里有一些面试中可能会问到的问题以及相对应的答案。如果你需要更多的面试经验和面试题,关注一下"张飞的猪大数据分享"吧,公众号会不定时的分享相关的知识和资料。 [TOC] ## 1、谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化? 1)序列化和反序列化 (1)序列 ......
试题集锦 集锦 MapReduce 试题 数据

Hadoop常见问题解析

# Hadoop常见问题解析 ## Hadoop特性 > 1.高可靠性:采用冗余数据存贮方式,即使一个副本发生故障,其他副本也可以保证对外工作的正常进行。 > > 2.高效性:作为并行分布式计算平台,hadoop采用分布式存贮和分布式处理两大核心技术,能够高效的处理PB级别的数据 > > 3.高可扩 ......
常见问题 常见 Hadoop 问题

Hadoop常用命令

一、Hadoop常用命令合集 Hadoop常见命令总结_hadoop -get_GoAI的博客-CSDN博客 1.1、常见基础命令 1.1.1启动Hadoop (1)进入HADOOP_HOME目录 (2)执行sh bin/start-all.sh 1.1.2关闭Hadoop (1)进入HADOOP_ ......
命令 常用 Hadoop

Hadoop入门之组成概述

Hadoop为分布式系统基础结构 多个服务器共同解决一个问题,进行海量数据的储存和海量数据的分析计算 HDFS架构 NameNode:储存文件的元数据,如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表和块所在的DataNode等 DataNode:在本地文件系统储 ......
Hadoop

CentOS7+java8+hadoop3.3.5环境搭建

需要的配置文件 centos7的镜像 centos-7.9.2009-isos-x86_64安装包下载_开源镜像站-阿里云 (aliyun.com) java8 Java Downloads | Oracle hadoop3.3.5 Index of /dist/hadoop/common/hado ......
CentOS7 hadoop3 环境 CentOS hadoop

Hadoop中HDFS集群启停命令

一键启停脚本 # 一键启动hdfs集群 start-dfs.sh # 一键关闭hdfs集群 stop-dfs.sh 单进程启停 $HADOOP_HOME/sbin/hadoop-daemon.sh,此脚本可以单独控制所在机器的进程的启停 用法: hadoop-daemon.sh (start|sta ......
集群 命令 Hadoop HDFS

Apache Hadoop

Apache Hadoop是一个开源的分布式计算框架,用于处理和存储大规模数据集。它提供了分布式存储和计算能力,可以在集群中运行,并具有高容错性和高扩展性。Hadoop的核心组件包括: Hadoop Distributed File System(HDFS):这是Hadoop的分布式文件系统,用于存 ......
Apache Hadoop

史上最全Hadoop面试题:尼恩大数据面试宝典专题1

文章且持续更新,建议收藏起来,慢慢读![**疯狂创客圈总目录 博客园版**](https://www.cnblogs.com/crazymakercircle/p/9904544.html) 为您奉上珍贵的学习资源 : 免费赠送 :[**《尼恩Java面试宝典》**](https://www.cnb ......
宝典 专题 数据 Hadoop

02-Hadoop集群搭建

# 1. 集群配置 ## 1.1 集群部署规划 - 资源上有抢夺冲突的,尽量不要部署在一起; - 工作上需要互相配合的,尽量部署在一起。 | \ | Hadoop102 | Hadoop103 | Hadoop104 | | :--: | : : | : : | : : | | HDFS | Nam ......
集群 Hadoop 02

01-Hadoop概述

# 1. 大数据 ## 1.1 概述 > 指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 大数据主要解决,海量数据的**采集**、**存储**和**分析计算**问题。 按顺序给出数 ......
Hadoop 01

Hadoop项目结构

HDFS:分布式存储 YARN:计算资源调度 MapReduce:离线计算(基于磁盘) Tez:构建有向无环图 Spark:基于内存计算 Hive:数据仓库(历史记录) Pig:流数据处理(轻量级的脚本语言) Oozie:作业流调度系统 Zookeeper:分布式协调服务 HBase:列族数据库 F ......
结构 项目 Hadoop

Hadoop

Hadoop可以支持多种语言。 两大核心:HDFS+MapReduce Hadoop具有很好的可扩展性,成本低 版本: ......
Hadoop

WIN10安装配置Hadoop

原文链接:WIN10安装配置Hadoop【作者:余生】 本文记录在WIN10上hadoop单节点的安装,后续再记录多节点分布式的安装。 1、安装JAVA环境 下载JDK8,官网链接:Java SE Development Kit 8 选择64版本:jdk-8u241-windows-x64.exe ......
Hadoop WIN 10

hadoop优化部分参数

yarn-site.xml: #表示该节点服务器上yarn可以使用的虚拟CPU个数,默认是8,推荐将值配置与物理核心个数相同 yarn.nodemanager.resource.cpu-vcores: 24 #设置该节点上yarn可使用的内存,默认为8G,如果节点内存资源不足8G,要减少这个值,ya ......
参数 部分 hadoop

hadoop状态和任务监控

``` # -*- coding: UTF-8 -*- import mysql.connector import sys import datetime import importlib import requests importlib.reload(sys) #修改hadoop地址参数为实际地 ......
状态 任务 hadoop

【大数据】大数据 Hadoop 管理工具 Apache Ambari(HDP)

[TOC] ## 一、概述 `Apache Ambari` **是 Hortonworks 贡献给Apache开源社区的顶级项目,它是一个基于web的工具,用于安装、配置、管理和监视 Hadoop 集群。** Ambari 目前已支持大多数 Hadoop 组件,包括 HDFS、MapReduce、H ......
数据 管理工具 工具 Hadoop Apache

数据库:Hadoop实验

# Hadoop实验 1. 先单机下载、安装hadoop,启动: ```shell bin/hdfs namenode -format sbin/start-all.sh ``` 2. 腾讯云新建三个机器,分别在两地(香港二区、香港三区),分别命名为master、slave1、slave2。 3. ......
数据库 数据 Hadoop

大数据学习笔记hadoop、hive、java

HDFS伪分布式集群搭建 tar -zxvf hadoop-2.7.7.tar.gzecho $JAVA_HOME/root/software/jdk1.8.0_221​#查看loaclhostvim /root/software/hadoop-2.7.7/etc/hadoop/hadoop-env ......
笔记 数据 hadoop hive java

hadoop学习

Hadoop 概述 1、Hadoop是什么 Hadoop是一个由Apache基金会开发的分布式系统基础架构; 主要解决海量数据的存储和分析计算问题; 广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈; 【Hadoop 三大发行版本】 Apache:版本最原始(最基础)的版本,对 ......
hadoop

Hadoop的完全分布式搭建

# Hadoop分布式安装 ## 集群规划 | 主机名 | Hadoop10 | Hadoop11 | Hadoop12 | | | | | | | 网络 | 192.168.10.10 | 192.168.10.11 | 192.168.10.12 | | 用户 | hadooproot | ha ......
分布式 Hadoop

hadoop集群搭建(docker)

1.准备安装包(hadoop-3.3.2.tar.gz和jdk-8u371-linux-x64.tar.gz) 2.创建Dockerfile文件: # 镜像源 FROM centos:7 # 添加元数据 LABEL author="作者" date="2023/05/30" # 安装openssh- ......
集群 hadoop docker

Hadoop - hadoop自带MR案例:词频 WordCount

词频 Word Count 1、在浏览器上访问 https://node01:9870 2、创建目录 /user 目录 bin/hdfs dfs -mkdir /user 如果未配置环境变量,需要到hadoop安装目录下执行 /opt/module/hadoop-2.5.2(这个是我的安装目录) 3 ......
词频 WordCount 案例 Hadoop hadoop

Hadoop - 执行start-dfs.sh、stop-dfs.sh 报错处理

执行 sbin/start-dfs.sh 和 sbin/stop-dfs.sh 报错,且进程仍然在 ......
start-dfs dfs stop-dfs Hadoop start

Hadoop - 两个Namenode都是standby状态怎么处理

在任意一个standby的NN节点执行 [root@node02 hadoop-2.5.2]# bin/hdfs haadmin -transitionToActive --forcemanual nn1 You have specified the forcemanual flag. This f ......
Namenode 状态 两个 standby Hadoop

Hadoop - 分布式部署

Zookeeper的分布式部署 >> Hadoop的分布式部署 集群规划 安装部署 集群规划 序号 主机名 JDK Zookeeper NameNode JournalNode DataNode ResourceManager NodeManager 1 node01 JDK ZK NN JN DN ......
分布式 Hadoop

Hadoop-3.3.5单节点开启Kerberos认证

1、Hadoop单节点部署 部署过程看官方文档即可 https://hadoop.apache.org/ 为增加执行命令的便利性,添加hadoop的环境变量: vim /etc/profile.d/hadoop.sh export HADOOP_HOME=/usr/local/hadoop-3.3. ......
节点 Kerberos Hadoop