hadoop hdfs

Hadoop YARN ResourceManager 未授权访问

Hadoop YARN ResourceManager 未授权访问 原理 Hadoop是一款由Apache基金会推出的分布式系统框架,它通过著名的MapReduce算法进行分布式处理,Yarn是Hadoop集群的资源管理系统。yarn提供有默认开放在8088和8090的REST API(默认前者)允 ......
ResourceManager Hadoop YARN

hadoop和spark

Spark和Hadoop是大数据处理领域两个重要的开源框架,它们之间既有紧密的联系也有显著的区别。 联系: 生态兼容:Spark可以无缝运行在Hadoop之上,利用Hadoop Distributed File System (HDFS) 进行数据存储,并且可以通过YARN(Yet Another ......
hadoop spark

Hadoop之mapreduce参数大全-5

101.指定任务启动过程中允许的最大跳过尝试次数 mapreduce.task.skip.start.attempts 是 Hadoop MapReduce 框架中的一个配置属性,用于指定任务启动过程中允许的最大跳过尝试次数。 在 MapReduce 作业中,如果某个任务(Map 任务或 Reduc ......
mapreduce 参数 大全 Hadoop

Hadoop之mapreduce参数大全-6

126.指定 Map 任务运行的节点标签表达式 mapreduce.map.node-label-expression 是 Hadoop MapReduce 框架中的一个配置属性,用于指定 Map 任务运行的节点标签表达式。节点标签是在 Hadoop 集群中为节点分配的用户定义的标签,可用于将 Ma ......
mapreduce 参数 大全 Hadoop

面试题:Hadoop的基于进程的计算和Spark基于线程方式优缺点?

Hadoop中的MR中每个map/reduce task都是一个java进程方式运行,好处在于进程之间是互相独立的,每个task独享进程资源,没 有互相干扰,监控方便,但是问题在于task之间不方便共享数据,执行效率比较低。比如多个map task读取不同数据源文件需要将数据源加 载到每个map t ......
优缺点 线程 进程 方式 Hadoop

装载数据时报错:Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create spark client.)'

错误还原 hive (edu)> insert into huanhuan values(1,'haoge'); Query ID = root_20240110071417_fe1517ad-3607-41f4-bdcf-d00b98ac443e Total jobs = 1 Launching ......

Hadoop之mapreduce参数大全-4

76.指定在 MapReduce 作业中,哪些输出文件应该在任务失败时保留 mapreduce.task.files.preserve.filepattern 是 Hadoop MapReduce 框架中的一个配置属性,用于指定在 MapReduce 作业中,哪些输出文件应该在任务失败时保留。 在 ......
mapreduce 参数 大全 Hadoop

Hadoop之mapreduce参数大全-3

51.指定Shuffle传输过程中可以同时连接的节点数 mapreduce.shuffle.max.connections是Hadoop MapReduce中的一个配置参数,用于指定Shuffle传输过程中可以同时连接的节点数。该参数用于控制Shuffle传输的并发度,以保障任务的稳定性和性能。 可 ......
mapreduce 参数 大全 Hadoop

作业2 分布式文件系统HDFS

一. 单选题(共10题,20分) 1. (单选题, 2分)分布式文件系统指的是什么? A. 把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群 B.用于在Hadoop与传统数据库之间进行数据传递 C. 一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统 D. 一种高吞吐 ......
分布式 文件 系统 HDFS

DataX试用Mongo→Hdfs&Hdfs→Mongo

安装 下载安装包 wget http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz 解压即可 配置 生成模板 python ./datax.py -r hdfsreader -w mongodbwriter python . ......
Mongo Hdfs DataX amp

Hadoop(3.3.4)-HDFS操作

Apache Hadoop 3.3.4 – Overview 01.appendToFile hadoop fs -appendToFile localfile /user/hadoop/hadoopfile hadoop fs -appendToFile localfile1 localfile2 ......
Hadoop HDFS

Hadoop之mapreduce参数大全-1

1.设置Map/Reduce任务允许使用的最大虚拟内存大小 mapred.task.maxvmem是MapReduce的一个配置参数,用于指定每个Map/Reduce任务允许使用的最大虚拟内存大小(以字节为单位)。如果一个任务使用的虚拟内存超过了此参数指定的值,则任务会被认为是失败的,并且MapRe ......
mapreduce 参数 大全 Hadoop

Hadoop之mapreduce参数大全-2

26.指定在Reduce任务在shuffle阶段的网络重试之间的最大延迟时间 mapreduce.reduce.shuffle.retry-delay.max.ms是Apache Hadoop MapReduce任务配置中的一个属性,用于指定在Reduce任务在shuffle阶段的网络重试之间的最大 ......
mapreduce 参数 大全 Hadoop

大数据本地环境搭建-Zookeeper/Hadoop/Hive搭建

1. Zookeeper环境安装 链接:https://pan.baidu.com/s/1wzbCiDxP7H5G_llwjSS3Rw?pwd=wgal 提取码:wgal 1.1 上传tar包 zookeeper-3.4.6.tar 注意:上传文件位置为 /export/server目录 1.2 解 ......
Zookeeper 环境 数据 Hadoop Hive

HDFS 转dataframe

import pyarrow.parquet as pq from pyarrow import fs # 创建Hadoop文件系统对象 fs = fs.LocalFileSystem() hadoop_path = "hdfs://<your-hdfs-address>/<csv-file>" # ......
dataframe HDFS

设计你生活的Hadoop yarn

去年十月份,我决定考雅思。然而,除了这项任务之外,我还有其他四个主要任务需要同时兼顾:学校的学业、数据结构和算法的学习、LeetCode的刷题以及大数据网课的学习。这五项任务都非常重要,但由于每天可用于学习的时间是固定的,我发现很难在这些任务之间找到平衡。事实上,在当时我并没有达到良好的平衡,因此结 ......
Hadoop yarn

TDSQL(MySQL版本)集群增加hdfs节点

一、需求:1、在原有集群上面增加3个hdfs节点,替换掉之前的hdfs;2、将替换掉的3台hdfs中2台 变成proxy节点,增加到第一套集群 二、参考文档:腾讯云数据库 TDSQL MySQL版_V10.3.19.x.x_部署指南(注意不要使用其中的nokey.sh脚本) 三、操作步骤:1、启动a ......
节点 集群 版本 TDSQL MySQL

终于肝完了!全网最全、最详细、最全面的 Hadoop大数据学习教程( 2023最新版 )

大家好,我是民工哥! 前面给大家介绍了:关系型数据库 MySQL 、 NoSQL 数据库 Redis 、 MongoDB 、搜索引擎 ElasticSearch 等知识体系学习的文章。 在当今这样的就业大背景下,卷是肯定的,强大自己也是必须的。所以,学习不能停,必须一直卷下去。截止今天,又一个知识体 ......
学习教程 全网 最新版 完了 面的

Hadoop理论知识

1、Hadoop是什么? Hadoop是一个由Apache基金会所研发的分布式系统基础架构。主要解决海量数据存储和海量数据的分析计算问题。 2、Hadoop的特点? (1)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。 (2)高扩展 ......
理论 知识 Hadoop

Hadoop Map/Reduce

Map/Reduce框架运转在<key, value> 键值对上,也就是说, 框架把作业的输入看为是一组<key, value> 键值对,同样也产出一组 <key, value> 键值对做为作业的输出,这两组键值对的类型可能不同。 框架需要对key和value的类(classes)进行序列化操作, ......
Hadoop Reduce Map

Hadoop HA部署

实现Hadoop高可用性部署 Hadoop High Availability(HA)是一种设计模式,用于确保在Hadoop分布式文件系统(HDFS)和资源管理器(ResourceManager)等关键组件中发生故障时,系统能够继续提供服务。HA的目标是减小单点故障对系统可用性的影响,使Hadoop ......
Hadoop

华为云耀云服务器L实例-大数据学习-hadoop前置准备2-JDK环境部署

华为云耀云服务器L实例-大数据学习-hadoop前置准备2-JDK环境部署 产品官网:https://www.huaweicloud.com/product/hecs-light.html 今天我们采用可靠更安全、智能不卡顿、价优随心用、上手更简单、管理特省心的华为云耀云服务器L实例为例,演示单台服 ......
实例 环境 服务器 数据 hadoop

华为云耀云服务器L实例-大数据学习-hadoop前置准备1-主机名映射与SSH免密登录

华为云耀云服务器L实例-大数据学习-hadoop前置准备1-主机名映射与SSH免密登录 产品官网:https://www.huaweicloud.com/product/hecs-light.html 今天我们采用可靠更安全、智能不卡顿、价优随心用、上手更简单、管理特省心的华为云耀云服务器L实例为例 ......
实例 主机 服务器 数据 hadoop

华为云耀云服务器L实例-大数据学习-hadoop前置准备3-防火墙、 SElinux 、时间同步等系统设置

华为云耀云服务器L实例-大数据学习-hadoop前置准备3-防火墙、 SElinux 、时间同步等系统设置 产品官网:https://www.huaweicloud.com/product/hecs-light.html 今天我们采用可靠更安全、智能不卡顿、价优随心用、上手更简单、管理特省心的华为云 ......
防火墙 实例 SElinux 服务器 时间

华为云耀云服务器L实例-大数据学习-单台服务器配置伪分布式模式hadoop集群

华为云耀云服务器L实例-大数据学习-单台服务器配置伪分布式模式hadoop集群 产品官网:https://www.huaweicloud.com/product/hecs-light.html 今天我们采用可靠更安全、智能不卡顿、价优随心用、上手更简单、管理特省心的华为云耀云服务器L实例为例,演示单 ......
服务器 分布式 集群 实例 模式

K8s中下线Hadoop节点(节点下线,调整副本数)

K8s中下线Hadoop节点(节点下线,调整副本数) 将Hadoop从三副本修改为双副本,同时修改datanode和nodemanager节点数为2 修改hadoop节点副本数和datanode以及yarn nodemanager节点数: hadoop.hdfs.replication=2 hado ......
节点 下线 副本 Hadoop K8s

hadoop配置

基础准备 sudo apt install ssh pdsh # 安装 ssh sudo apt install openjdk-8-jdk # 安装 jdk8 在.bashrc文件中添加: export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 ......
hadoop

hadoop数据迁移

使用Distcp进行Hadoop数据迁移 DispCP官方文档 在进行数据迁移前确认数据量大小和数据文件数,源端和目的端都需要确认: hdfs dfs -count / 59790 7008 22875716090 / 59790:表示目录 / 下的文件总数,即包括目录和文件在内的所有对象的数量。 ......
数据 hadoop

hdfs报错:There are 0 datanode(s) running and 0 node(s) are excluded in this operation

namenode的日志还是打印There are 0 datanode(s) running and 0 node(s) are excluded in this operation.吗 报错信息如下所示。其中,【X】是当前正在运行的DataNode数量,【Y】是被排除在此操作之外的DataNode ......
are operation datanode excluded running

Hadoop YARN Cgroups 资源隔离讲解

目录一、概述二、Hadoop 环境准备三、内存资源限制四、CPU 资源限制1)启用 LCE2)启用 CGroup3)配置 Yarn CGroup 目录3)CPU 资源限制 一、概述 Hadoop YARN (Yet Another Resource Negotiator) 使用 Cgroups(Co ......
Cgroups Hadoop 资源 YARN
共450篇  :1/15页 首页上一页1下一页尾页