start-dfs dfs stop-dfs hadoop
Hadoop YARN ResourceManager 未授权访问
Hadoop YARN ResourceManager 未授权访问 原理 Hadoop是一款由Apache基金会推出的分布式系统框架,它通过著名的MapReduce算法进行分布式处理,Yarn是Hadoop集群的资源管理系统。yarn提供有默认开放在8088和8090的REST API(默认前者)允 ......
hadoop和spark
Spark和Hadoop是大数据处理领域两个重要的开源框架,它们之间既有紧密的联系也有显著的区别。 联系: 生态兼容:Spark可以无缝运行在Hadoop之上,利用Hadoop Distributed File System (HDFS) 进行数据存储,并且可以通过YARN(Yet Another ......
Hadoop之mapreduce参数大全-5
101.指定任务启动过程中允许的最大跳过尝试次数 mapreduce.task.skip.start.attempts 是 Hadoop MapReduce 框架中的一个配置属性,用于指定任务启动过程中允许的最大跳过尝试次数。 在 MapReduce 作业中,如果某个任务(Map 任务或 Reduc ......
Hadoop之mapreduce参数大全-6
126.指定 Map 任务运行的节点标签表达式 mapreduce.map.node-label-expression 是 Hadoop MapReduce 框架中的一个配置属性,用于指定 Map 任务运行的节点标签表达式。节点标签是在 Hadoop 集群中为节点分配的用户定义的标签,可用于将 Ma ......
搜索学习笔记+杂题 (基础一 简单的dfs+bfs)
搜索杂题: 一、基础的BFS与DFS: 深搜和广搜都可以遍历出在一定限制下可能出现的所有情况,但是朴素的搜索一般复杂度极高,成指数级别,需要用到各种五花八门的优化方式,后面会一一介绍,但基础很重要,几乎不用考虑优化,直接模拟题意就可以了。这篇博文讲的是习题ing。 深搜一般处理有分支的情况,广搜一般 ......
面试题:Hadoop的基于进程的计算和Spark基于线程方式优缺点?
Hadoop中的MR中每个map/reduce task都是一个java进程方式运行,好处在于进程之间是互相独立的,每个task独享进程资源,没 有互相干扰,监控方便,但是问题在于task之间不方便共享数据,执行效率比较低。比如多个map task读取不同数据源文件需要将数据源加 载到每个map t ......
装载数据时报错:Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create spark client.)'
错误还原 hive (edu)> insert into huanhuan values(1,'haoge'); Query ID = root_20240110071417_fe1517ad-3607-41f4-bdcf-d00b98ac443e Total jobs = 1 Launching ......
Hadoop之mapreduce参数大全-4
76.指定在 MapReduce 作业中,哪些输出文件应该在任务失败时保留 mapreduce.task.files.preserve.filepattern 是 Hadoop MapReduce 框架中的一个配置属性,用于指定在 MapReduce 作业中,哪些输出文件应该在任务失败时保留。 在 ......
Hadoop之mapreduce参数大全-3
51.指定Shuffle传输过程中可以同时连接的节点数 mapreduce.shuffle.max.connections是Hadoop MapReduce中的一个配置参数,用于指定Shuffle传输过程中可以同时连接的节点数。该参数用于控制Shuffle传输的并发度,以保障任务的稳定性和性能。 可 ......
Hadoop(3.3.4)-HDFS操作
Apache Hadoop 3.3.4 – Overview 01.appendToFile hadoop fs -appendToFile localfile /user/hadoop/hadoopfile hadoop fs -appendToFile localfile1 localfile2 ......
Hadoop之mapreduce参数大全-1
1.设置Map/Reduce任务允许使用的最大虚拟内存大小 mapred.task.maxvmem是MapReduce的一个配置参数,用于指定每个Map/Reduce任务允许使用的最大虚拟内存大小(以字节为单位)。如果一个任务使用的虚拟内存超过了此参数指定的值,则任务会被认为是失败的,并且MapRe ......
Hadoop之mapreduce参数大全-2
26.指定在Reduce任务在shuffle阶段的网络重试之间的最大延迟时间 mapreduce.reduce.shuffle.retry-delay.max.ms是Apache Hadoop MapReduce任务配置中的一个属性,用于指定在Reduce任务在shuffle阶段的网络重试之间的最大 ......
大数据本地环境搭建-Zookeeper/Hadoop/Hive搭建
1. Zookeeper环境安装 链接:https://pan.baidu.com/s/1wzbCiDxP7H5G_llwjSS3Rw?pwd=wgal 提取码:wgal 1.1 上传tar包 zookeeper-3.4.6.tar 注意:上传文件位置为 /export/server目录 1.2 解 ......
设计你生活的Hadoop yarn
去年十月份,我决定考雅思。然而,除了这项任务之外,我还有其他四个主要任务需要同时兼顾:学校的学业、数据结构和算法的学习、LeetCode的刷题以及大数据网课的学习。这五项任务都非常重要,但由于每天可用于学习的时间是固定的,我发现很难在这些任务之间找到平衡。事实上,在当时我并没有达到良好的平衡,因此结 ......
终于肝完了!全网最全、最详细、最全面的 Hadoop大数据学习教程( 2023最新版 )
大家好,我是民工哥! 前面给大家介绍了:关系型数据库 MySQL 、 NoSQL 数据库 Redis 、 MongoDB 、搜索引擎 ElasticSearch 等知识体系学习的文章。 在当今这样的就业大背景下,卷是肯定的,强大自己也是必须的。所以,学习不能停,必须一直卷下去。截止今天,又一个知识体 ......
Hadoop理论知识
1、Hadoop是什么? Hadoop是一个由Apache基金会所研发的分布式系统基础架构。主要解决海量数据存储和海量数据的分析计算问题。 2、Hadoop的特点? (1)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。 (2)高扩展 ......
Hadoop Map/Reduce
Map/Reduce框架运转在<key, value> 键值对上,也就是说, 框架把作业的输入看为是一组<key, value> 键值对,同样也产出一组 <key, value> 键值对做为作业的输出,这两组键值对的类型可能不同。 框架需要对key和value的类(classes)进行序列化操作, ......
深度优先搜索(DFS)和广度优先搜索(BFS)
深度优先搜索(DFS)和广度优先搜索(BFS),都是图形搜索算法,相似又却不同,在应用上也被用到不同的地方。 一、深度优先搜索(DFS) 深度优先搜索属于图算法的一种,是一个针对图和树的遍历算法,英文缩写为DFS即Depth First Search。深度优先搜索是图论中的经典算法,利用深度优先搜索 ......
Hadoop HA部署
实现Hadoop高可用性部署 Hadoop High Availability(HA)是一种设计模式,用于确保在Hadoop分布式文件系统(HDFS)和资源管理器(ResourceManager)等关键组件中发生故障时,系统能够继续提供服务。HA的目标是减小单点故障对系统可用性的影响,使Hadoop ......
华为云耀云服务器L实例-大数据学习-hadoop前置准备2-JDK环境部署
华为云耀云服务器L实例-大数据学习-hadoop前置准备2-JDK环境部署 产品官网:https://www.huaweicloud.com/product/hecs-light.html 今天我们采用可靠更安全、智能不卡顿、价优随心用、上手更简单、管理特省心的华为云耀云服务器L实例为例,演示单台服 ......
华为云耀云服务器L实例-大数据学习-hadoop前置准备1-主机名映射与SSH免密登录
华为云耀云服务器L实例-大数据学习-hadoop前置准备1-主机名映射与SSH免密登录 产品官网:https://www.huaweicloud.com/product/hecs-light.html 今天我们采用可靠更安全、智能不卡顿、价优随心用、上手更简单、管理特省心的华为云耀云服务器L实例为例 ......
华为云耀云服务器L实例-大数据学习-hadoop前置准备3-防火墙、 SElinux 、时间同步等系统设置
华为云耀云服务器L实例-大数据学习-hadoop前置准备3-防火墙、 SElinux 、时间同步等系统设置 产品官网:https://www.huaweicloud.com/product/hecs-light.html 今天我们采用可靠更安全、智能不卡顿、价优随心用、上手更简单、管理特省心的华为云 ......
华为云耀云服务器L实例-大数据学习-单台服务器配置伪分布式模式hadoop集群
华为云耀云服务器L实例-大数据学习-单台服务器配置伪分布式模式hadoop集群 产品官网:https://www.huaweicloud.com/product/hecs-light.html 今天我们采用可靠更安全、智能不卡顿、价优随心用、上手更简单、管理特省心的华为云耀云服务器L实例为例,演示单 ......
K8s中下线Hadoop节点(节点下线,调整副本数)
K8s中下线Hadoop节点(节点下线,调整副本数) 将Hadoop从三副本修改为双副本,同时修改datanode和nodemanager节点数为2 修改hadoop节点副本数和datanode以及yarn nodemanager节点数: hadoop.hdfs.replication=2 hado ......
hadoop配置
基础准备 sudo apt install ssh pdsh # 安装 ssh sudo apt install openjdk-8-jdk # 安装 jdk8 在.bashrc文件中添加: export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 ......
LOJ-3033/QOJ-4896/南外集训 2023.12.26 T3 Alice、Bob 与 DFS
恶魔的低语,会送来天堂的福音。 题意 有一个 \(n\) 个点的有向无环图,第 \(i\)(\(1 \le i \le n\))个点有 mi 条有序的出边 \(e_{i,1}, e_{i,2}, . . . , e_{i,m_i}\)。每个点要么是黑点,要么是白点。有 \(k\) 个程序,第 \(i ......
hadoop数据迁移
使用Distcp进行Hadoop数据迁移 DispCP官方文档 在进行数据迁移前确认数据量大小和数据文件数,源端和目的端都需要确认: hdfs dfs -count / 59790 7008 22875716090 / 59790:表示目录 / 下的文件总数,即包括目录和文件在内的所有对象的数量。 ......
Hadoop YARN Cgroups 资源隔离讲解
目录一、概述二、Hadoop 环境准备三、内存资源限制四、CPU 资源限制1)启用 LCE2)启用 CGroup3)配置 Yarn CGroup 目录3)CPU 资源限制 一、概述 Hadoop YARN (Yet Another Resource Negotiator) 使用 Cgroups(Co ......
Hadoop集群迁移(元数据及HDFS数据)
1.背景 老集群采用的腾讯emr集群,使用过程中磁盘扩容成本费用高且开源组件兼容性存在问题,因此决定采用自建hadoop集群,需要将emr的元数据和hdfs基础数据迁移过来。 EMR版本:3.1.2 自建Hadoop版本:3.1.3 2.集群迁移步骤 2.1 数据迁移 nohup hadoop di ......
算法复习 DFS两题
全排列 模版题 AcWing 842. 排列数字 #include <cstdio> #include <vector> #include <queue> #include <cstring> #include <algorithm> #include <iostream> #include <st ......