mapreduce hadoop

Hadoop YARN Cgroups 资源隔离讲解

目录一、概述二、Hadoop 环境准备三、内存资源限制四、CPU 资源限制1)启用 LCE2)启用 CGroup3)配置 Yarn CGroup 目录3)CPU 资源限制 一、概述 Hadoop YARN (Yet Another Resource Negotiator) 使用 Cgroups(Co ......
Cgroups Hadoop 资源 YARN

Hadoop集群迁移(元数据及HDFS数据)

1.背景 老集群采用的腾讯emr集群,使用过程中磁盘扩容成本费用高且开源组件兼容性存在问题,因此决定采用自建hadoop集群,需要将emr的元数据和hdfs基础数据迁移过来。 EMR版本:3.1.2 自建Hadoop版本:3.1.3 2.集群迁移步骤 2.1 数据迁移 nohup hadoop di ......
数据 集群 Hadoop HDFS

Hadoop生产集群搭建

1.环境准备 1.1 集群规划 序号 bigdata-001 bigdata-002 bigdata-003 bigdata-004 bigdata-005 IP x x x x x x xxx xxx xxx 组件 hadoop1 hadoop2 hadoop3 hadoop4 hadoop5 节 ......
集群 Hadoop

使用sqoop一直卡在:mapreduce.Job: Running job: job_1703173956074_0001

修改hadoop配置 vi /usr/local/software/hadoop-2.9.2/etc/hadoop/yarn-site.xml # 添加如下 <configuration> <property> <name>yarn.nodemanager.resource.memory-mb</n ......
1703173956074 mapreduce job Running sqoop

大数据hadoop理论面试题

1、列举几个hadoop生态圈的组件并做简要描述? (1)Zookeeper:是一个开源的分布式应用程序协调服务,基于zookeeper可以实现同步服务,配置维护,命名服务。 (2)Flume:一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。 (3)Hbase:是一个分布式的、面向列 ......
理论 数据 hadoop

报错:org.apache.hadoop.hbase.util.GetJavaProperty

hbase和flume查看版本时显示如下 [root@slave1 flume-1.9.0]# hbase version 错误: 找不到或无法加载主类 org.apache.hadoop.hbase.util.GetJavaProperty SLF4J: Class path contains m ......
GetJavaProperty apache hadoop hbase util

MapReduce入门案例——wordcount词频统计分析

说实话,wordcount这个案例挺土的,但是作为入门案例,还是值得学习的,本篇就通过MapReduce来对词频进行一个统计分析,并写出核心代码。 一:案例介绍: Input : 读取文本文件; Splitting : 将文件按照文件块(block)或者行进行拆分,此时得到的K1为偏移量,V1表示对 ......

MapReduce基本介绍

MapReduce也是Hadoop里的核心内容,非常著名,五星级必须要掌握哦,本篇文章就先抛砖引玉,对MapReduce做一个基本介绍。 到底什么是MapReduce Hadoop MapReduce 是一个分布式计算框架,用于编写批处理应用程序。编写好的程序可以提交到 Hadoop 集群上用于并行 ......
MapReduce

hadoop集群常见错误

虚拟及没有启动任何服务器查看jps会显示jps,如果没有显示任何东西 [root@slave2 ~]# jps 9647 Jps 解决方案 # 进入/tmp查看 [root@slave1 dfs]# cd /tmp [root@slave1 tmp]# ll 总用量 48 drwxr-xr-x. 2 ......
集群 常见 错误 hadoop

hadoop启动时报错process information unavailable

启动hadoop,jps查看报错 [root@slave1 home]# jps 7798 -- process information unavailable 7081 -- process information unavailable 查看进程是否存在 [root@slave1 home]# ......

Hadoop的“前世今生”

Hello,小伙伴们,作为大数据的第一篇博文,肯定要先介绍一下大数据中的“大哥大”Hadoop了,别急,咱们慢慢介绍。 一:Hadoop名称由来 与很多其他的开源框架不同,Hadoop的名字并不是一个缩写,而是一个生造出来的词。据说是Hadoop之父Doug Cutting用儿子毛绒玩具大象的名字命 ......
Hadoop

Hadoop Yarn Tool接口接入

项目搭建参考 Java实现对Hadoop HDFS的API操作 1.驱动类 package cn.coreqi.mapreduce.tool; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.util.Too ......
接口 Hadoop Yarn Tool

Hadoop Yarn 调度器多队列

1.容量调度器多队列 1.为何需要多队列 调度器默认就1个default队列,不能满足生产的要求。 1个队列在任务极限的情况下,容易资源耗尽。 特殊时期通过对任务的区分可以保证重要的任务队列资源充足 按照框架区分队列,如hive/spark/flink 每个框架的任务放入指定的队列(企业用的不是特别 ......
队列 Hadoop Yarn

Hadoop YARN生产环境核心配置参数

1.ResourceManager相关 配置参数 说明 默认值 备注 yarn.resourcemanager.scheduler.class 配置调度器,默认为容量调度器(Apache) org.apache.hadoop.yarn.server.resourcemanager.scheduler ......
核心 参数 环境 Hadoop YARN

Hadoop YARN

1.Yarn资源调度器 Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 1.Yarn基础架构 Yarn主要由ResourceManager、NodeManager、Applicatio ......
Hadoop YARN

Hadoop 数据压缩

1.概述 1.好处 & 坏处 优点:减少磁盘IO、减少磁盘存储空间 缺点:增加CPU开销 2.压缩的原则 运算密集型的Job,少用压缩 IO密集型的Job,多用压缩 2.MR 支持的压缩编码 1.压缩算法对比介绍 压缩格式 Hadoop自带? 算法 文件扩展名 是否可切片 换成压缩格式后,原来的程序 ......
数据 Hadoop

Hadoop快速入门

Hadoop快速入门 一、大数据思维 分而治之 所谓“分而治之”,就是把一个复杂的算法问题按一定的“分解”方法分为等价的规模较小的若干部分,然后逐个分别找出各部分的解,再把各部分的解组成整个问题的解。 传统的计算都是基于内存去完成的,但是内存是有限的,数据量太大,导致无法在较短时间内迅速解决,也就是 ......
Hadoop

Hadoop MapReduce框架原理

1.InputFormat数据输入 1.数据切片与MapTask并行度决定机制 一个Job的Map阶段并行度由客户端在提交Job时的切片数决定 每一个Split切片分配一个MapTask并行实例处理 默认情况下,切片大小 = BlockSize 切片时不考虑数据集整体,而是逐个针对每一个文件单独切片 ......
MapReduce 框架 原理 Hadoop

Hadoop 数据类型及序列化

1.Hadoop数据类型 Java类型 Hadoop Writable类型 Boolean BooleanWritable Writable Writable Writable Writable Writable Writable Writable Writable Writable 2.为何Had ......
序列 类型 数据 Hadoop

Hadoop MapReduce编程规范

用户编写的程序分为三个部分:Mapper、Reducer和Driver 1.Mapper阶段 用户自定义的Mapper要继承自己的父类 Mapper的输入数据是KV对的形式(KV的类型可自定义) Mapper中的业务逻辑写在map()方法中 Mapper的输出数据是KV对的形式(KV的类型可自定义) ......
MapReduce Hadoop

Hadoop NameNode(SecondaryNameNode) Fsimage和Edits解析

NameNode被格式化之后,将在NameNode目录下产生一些文件 1.Fsimage文件 Fsimage文件是HDFS文件系统元数据的一个永久性的检查点,其中包含HDFS文件系统的所有目录和文件inode的序列化信息 2.Edits文件 Edits文件存放了HDFS文件系统的所有更新操作的路径, ......

Hadoop 配置的优先级

从低到高 1.默认配置 默认文件 文件存放在Hadoop的jar包中的位置 core-default.xml hadoop-common-3.3.6.jar/core-default.xml hdfs-default.xml hadoop-hdfs-3.3.6.jar/hdfs-default.xm ......
优先级 Hadoop

Java实现对Hadoop HDFS的API操作

1.配置Hadoop的Windows客户端 Hadoop 配置Windows 客户端 2.新建Maven项目[略] 3.添加依赖 <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-client --> <dependen ......
Hadoop Java HDFS API

Hadoop 配置Windows 客户端

1.根据Hadoop版本下载Windows依赖,并放置到非中文目录下 https://github.com/cdarlint/winutils 2.配置环境变量 HADOOP_HOME -> 放置的目录地址 PATH -> 追加%HADOOP_HOME%\bin 3.测试环境 双击winutils. ......
客户端 Windows 客户 Hadoop

Hadoop HDFS 文件块大小

HDFS中的文件在物理上是分块存储(Block),块的大小可以通过配置参数(dfs.blocksize)来配置,默认大小在Hadoop2.x/3.x版本中是128M,1.x版本中是64M. 建议配置为物理机硬盘每秒的读取速度,如机械硬盘则建议为128M,SSD则配置为256M。 ......
大小 文件 Hadoop HDFS

基于Docker容器搭建hadoop完全分布式集群环境

简介 物理机:windows10 宿主机:Centos7虚拟机,需要安装Docker服务 hadoop集群节点:3个centos7的容器,hadoop1、hadoop2、hadoop3 组件: 容器镜像:Centos7 Docker CE 24.0.7 JDK1.8.0_181 Hadoop3.1. ......
分布式 集群 容器 环境 Docker

Hadoop 常用端口号

端口名称 Hadoop2.x Hadoop3.x HDFS NameNode内部通信端口 8020 / 9000 8020 / 9000 / 9820 HDFS NameNode HTTP UI 50070 9870 YARN MapReduce查看执行任务端口 8088 8088 历史服务器通信端 ......
口号 常用 Hadoop

虚拟机运行Hadoop | 各种问题解决的心路历程

ps:完成大数据技术实验报告的过程,出项各种稀奇古怪的问题。(知道这叫什么吗?经济基础决定上层建筑,我当时配置可能留下了一堆隐患,总之如果有同样的问题,希望可以帮到你) 一、虚拟机网络连接不通的各种情况 我这里遇到的是,三台虚拟机,两台piing百度不同 原因:改了下内存,重启就又未知的网络名称 解 ......
心路 历程 Hadoop 问题

最新版本——Hadoop3.3.6单机版完全部署指南

大家好,我是独孤风,大数据流动的作者。 本文基于最新的 Hadoop 3.3.6 的版本编写,带大家通过单机版充分了解 Apache Hadoop 的使用。本文更强调实践,实践是大数据学习的重要环节,也能在实践中对该技术有更深的理解,所以一些理论知识建议大家多阅读相关的书籍(都在资料包中)。 本文档 ......
单机版 单机 Hadoop3 版本 指南

hive执行sql报错 FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask

前言: 执行hive sql报错,sql逻辑是两个表左连接并将数据插入新的表中。 报错信息: [ERROR] 2023-12-05 15:49:49.165 +0800 - execute sql error: Error while processing statement: FAILED: Ex ......
hive MapredLocalTask Execution FAILED apache
共410篇  :2/14页 首页上一页2下一页尾页