hadoop

Hadoop - HDFS 概述

什么是HDFS HDFS的优缺点 HDFS的文件块大小 HDFS的写数据流程 HDFS的副本配置策略 HDFS读数据的流程 什么是HDFS HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器 ......
Hadoop HDFS

flink安装(无hadoop)

下载Flink:访问Flink的官方网站(https://flink.apache.org/),在下载页面找到适合你操作系统的预编译二进制包。选择与你的操作系统和版本相对应的下载链接,点击下载。 解压二进制包:下载完成后,将二进制包解压到你想要安装Flink的目录中。你可以使用命令行工具(如tar命 ......
hadoop flink

hadoop 生态环境

HDFS角色及概念 hadoop体系中数据存储管理的基础,是一个高度蓉错的系统,用于在低成本的通用硬件上运行 角色和概念 — Client — NameNode — Secondarynode — Datanode NameNode — Master节点,管理HDFS的(名称空间和数据块映射信息)就 ......
生态环境 生态 环境 hadoop

【博学谷学习记录】超强总结,用心分享 | Hadoop

【博学谷IT技术支持】 # 一、介绍 ## 概念 [Apache™ Hadoop®](https://hadoop.apache.org/) 项目为可靠、可扩展的分布式计算开发开源软件。允许简单的编程模型在大量计算机集群上对大型数据集群进行分布式处理。 项目包含以下模块: - `Common`: 支 ......
Hadoop

【博学谷学习记录】超强总结,用心分享 | hadoop的组成

【博学谷IT技术支持】 公众号: 积雷山摩云洞,欢迎关注!!! # hadoop的构成 hadoop集群主要包含:HDFS集群、MapReduce、YARN集群。HDFS集群复制海量数据的存储,MapReduce负责海量计算,Yarn集群存在数据运算时的资源调度。 - hdfs集群主要包含了角色na ......
hadoop

大数据面试题集锦-Hadoop面试题(二)-HDFS

> 你准备好面试了吗?这里有一些面试中可能会问到的问题以及相对应的答案。如果你需要更多的面试经验和面试题,关注一下"张飞的猪大数据分享"吧,公众号会不定时的分享相关的知识和资料。 [TOC] ## 1、 HDFS 中的 block 默认保存几份? 默认保存3份 ## 2、HDFS 默认 BlockS ......
试题集锦 集锦 试题 数据 Hadoop

Windows 配置 Hadoop and Spark

一 JDK环境配置 由于项目用的JDK17,所以单独给Hadoop配了JDK11,建议直接配置JAVA_HOME环境变量为JDK11,因为后面Spark需要用到JAVA_HOME 下载JDK11 链接:https://www.oracle.com/java/technologies/javase/j ......
Windows Hadoop Spark and

关于Hadoop集群无法正常关闭的问题

### 原生命令 正常情况我们是通过以下命令来停止和开启集群的 ```sh sbin/stop-all.sh sbin/start-all.sh ``` 但有时候不生效,通过ps还能查看到,但jps命令查看不到 ### 自定义停止命令 ```sh #!/bin/bash # 停止hadoop进程 h ......
集群 Hadoop 问题

Hadoop之YARN详解

### YARN的由来 从Hadoop2开始,官方把资源管理单独剥离出来,主要是为了考虑后期作为一个公共的资源管理平台,任何满足规则的计算引擎都可以在它上面执行。所以YARN可以实现HADOOP集群的资源共享,不仅仅可以跑MapRedcue,还可以跑Spark、Flink。 ### YARN架构分析 ......
Hadoop YARN

Hadoop - hadoop介绍

Hadoop是什么 Hadoop的发展历史 Hadoop的优势 Hadoop是什么 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决海量数据的存储和海量数据的分析计算问题。广义上讲,Hadoop通常是指一个更广泛的概念 —— Hadoop生态圈。 Hadoop的发展历史 L ......
Hadoop hadoop

hadoop3.x-ec

一、EC原理 二、常用命令与对应解释 1.查看当前支持的EC策略 hdfs ec -listPolicies 2023-05-30 10:10:43,251 WARN util.NativeCodeLoader: Unable to load native-hadoop library for yo ......
hadoop3 hadoop x-ec ec

Hadoop之MapReduce性能优化

现在大家已经掌握了MapReduce程序的开发步骤,注意了,针对MapReduce的案例我们并没有讲太多,主要是因为在实际工作中真正需要我们去写MapReduce代码的场景已经是凤毛麟角了,因为后面我们会学习一个大数据框架Hive,Hive支持SQL,这个Hive底层会把SQL转化为MapReduc ......
MapReduce 性能 Hadoop

Hadoop之MapReduce详解

### 前言 前面我们学习了Hadoop中的HDFS,HDFS主要是负责存储海量数据的,如果只是把数据存储起来,除了浪费磁盘空间,是没有任何意义的,我们把数据存储起来之后是希望能从这些海量数据中分析出来一些有价值的内容,这个时候就需要有一个比较厉害的计算框架,来快速计算这一批海量数据,所以MapRe ......
MapReduce Hadoop

hadoop安装使用

# hadoop相关介绍 ## 1.什么是hadoop? Hadoop是一个开源的分布式计算框架,它可以让我们在大规模集群中存储和处理海量数据。Hadoop基于Google的MapReduce和Google文件系统(GFS)的思想而设计。它的目标是能够在成百上千台普通计算机上并行处理大数据,提供高可 ......
hadoop

hadoop序列化相关问题

**什么时候需要使用序列化?** *需要在不同服务器传递内存数据时,用序列化。* **序列化后的所有属性需要再反序列化,那么有先后顺序反序列化吗?** *有的,比如序列化的属性有a b c* *则反序列化的属性必须是 ca b c* **数据切片一般为数据块的倍数,为什么?** *一般一个数据切片对 ......
序列 hadoop 问题

Hadoop全分布部署

安装包下载(百度网盘)链接: https://pan.baidu.com/s/1XrnbpNNqcG20QG_hL4RJoQ?pwd=aec9 提取码: aec9 ## 基础配置(所有节点) ### 关闭防火墙,selinux安全子系统 ````bash #关闭防火墙,设置开机自动关闭 [root@ ......
Hadoop

centos7上Hadoop2.7.2完全分布式部署

1.规划 node1 node2 node3datanode datanode datanodenamenode resourcemanager secondarynamenodenodemanager nodemanager nodemanager 2.设置环境 2.1 修改hostname主机名 ......
分布式 centos7 Hadoop2 centos Hadoop

centos7.9上hadoop-2.7.2伪分布式部署

1.安装jdk 1.1 在Oracle官网上现在jdk1.8 ,然后上传到Linux服务器中 1.2 安装jdk rpm -ivh jdk-8u371-linux-x64.rpm 2 创建部署用户 hadoop useradd -d /hadoop hadoop echo 123 |passwd - ......
分布式 centos7 centos hadoop

尚硅谷Hadoop的WordCount案例实操练习出现的bug

这个错误是由于WordCount程序在Windows系统上运行时,尝试调用了Hadoop的NativeIO类的access0方法,但无法找到正确的JNI库导致的UnsatisfiedLinkError异常。 NativeIO类是Hadoop用来执行一些本地文件操作的类,它依赖于JNI来调用Windo... ......
WordCount 案例 Hadoop bug

hadoop安装过程与踩雷记录

1. 安装教程 https://blog.csdn.net/weixin_47749831/article/details/109607682 在粘贴脚本修改代码时需要注意用自己的路径替换博客中代码的路径 2. 报错:‘-Dhadoop.security.logger‘ 不是内部或外部命令,也不是可 ......
过程 hadoop

HDFS文件因Hadoop版本原因导致append操作失败的问题

**问题重现: 2023.05.24练习B站尚硅谷Hadoop3里的HDFS的Shell操作(append)** [atguigu@hadoop102 hadoop-3.3.4]$ hadoop fs -appendToFile liubei.txt /sa 点击查看代码 ``` [atguigu@ ......
原因 版本 文件 Hadoop append

hadoop集群搭建后,启动集群后网络畅通,却无法访问web页面的解决办法

# hadoop集群搭建后,启动集群后网络畅通,却无法访问web页面的解决办法 > 问题引入:在学习hadoop搭建完全分布式集群时,已经集群配置了4个核心文件,并且启动所有相关进程,在使用jps命令检查进程,该集群启动完整正常,但是无法访问hdfsweb页面和yarnweb页面,我尝试了ping通 ......
集群 办法 页面 hadoop 网络

hadoop 2.7.7 ERROR datanode.DataNode: BlockSender.sendChunks() exception: java.io.IOException: 你的主机中的软件中止了一个已建立的连接。

最近在测试Hbase在windows上的单机版的功能。 版本:hadoop 2.7.7 hbase 2.0.0 错误: ERROR datanode.DataNode: BlockSender.sendChunks() exception: java.io.IOException: 你的主机中的软件 ......

Hadoop-3.3.5单机版安装步骤

1.下载JDK和Hadoop[略] 2.解压[略] 3.创建hadoop数据存储的目录 mkdir -p /home/hadoop/tmp /home/hadoop/hdfs/data /home/hadoop/hdfs/name 4.配置JAVA环境和HADOOP_HOME vim /etc/pr ......
单机版 单机 步骤 Hadoop

hadoop多节点,单词数计算,java代码

1、pom.xml代码 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-inst ......
节点 单词 代码 hadoop java

hadoop distcp 参数详解

distcp 是一个用于数据复制的工具,它可以将数据从一个 Hadoop 集群复制到另一个 Hadoop 集群。 Usage: hadoop distcp [OPTIONS] <srcurl> <desturl> OPTIONS: -p[rbugpcax] Preserve status (rbug ......
参数 hadoop distcp

hadoop中distcp的mapreduce任务中的task0详解及优化

distcp 是 Hadoop 中一个用于数据复制的工具,可用于大规模数据复制场景。在 distcp 执行过程中,会运行多个 MapReduce 任务,其中第一个任务通常被称为 "task0" 或 "main task"。 task0 主要负责以下操作: 解析命令行参数并生成 distcp 配置。 ......
mapreduce 任务 hadoop distcp task0

Hadoop API使用 大坑

这几天一直在困扰我 pycurl 版本和本机的版本不符合 他连接又连接的自己自带的版本 与系统不相同 低级也会报错 https://blog.csdn.net/u010910682/article/details/89496550/?ops_request_misc=&request_id=&biz ......
大坑 Hadoop API

hadoop基础

大数据的5v特征 一、Volume:数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。 二、Variety:种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类 ......
基础 hadoop

hadoop启动脚本

if (($# < 1)); then echo no args input, exit. exit 1 fi case $1 in start) echo [INFO] starting dfs ... start-dfs.sh echo [INFO] done. echo [INFO] star ......
脚本 hadoop