mapreduce hadoop

实验五MapReduce 实验

今天完成了MapReduce实验，参照这篇博主的文章，实验5 MapReduce初级编程实践（1）——编程实现文件合并和去重操作_mapreduce z.q.feng csdn-CSDN博客出现的错误是，jar包未打包成功，一定要去java代码目录下面看看有没有成工打包好jar包，不成功在目录下对 ......

MapReduce更新时间 2023-12-06

大数据实验（MapReduce编程2）

代码参考： MapReduce实验 - CodeDancing - 博客园 (cnblogs.com) 编程实现总代码：编译工具：IDEA 说明： 1.完成不同的任务的时候，需要修改cmd的值 2.conf.set("fs.default.name","hdfs://node1:8020");换上 ......

据实大数 MapReduce更新时间 2023-12-05

hadoop大数据安装

一、hadoop的安装1、hadoop的安装wget https://archive.apache.org/dist/hadoop/common/hadoop-3.1.3/hadoop-3.1.3.tar.gz2、解压tar -zxvf hadoop-3.1.3.tar.gz -C /opt/mod ......

数据 hadoop更新时间 2023-12-05

hadoop优化之yarn调优

yarn.nodemanager.resource.memory-mb表示该节点上YARN可使用的物理内存总量，默认是8192（MB），注意，如果你的节点内存资源不够8GB，则需要调减小这个值，而YARN不会智能的探测节点的物理内存总量。 yarn.nodemanager.vmem-pmem-rat ......

hadoop yarn更新时间 2023-12-05

start-dfs.sh启动hadoop，jps没显示

查看当前系统的名称 [root@master dfs]# cat /etc/hosts 192.168.128.78 hadoop01 查看core-site.xml <property> <name>fs.defaultFS</name> <value>hdfs://hadoop01:9000</ ......

start-dfs hadoop start dfs jps更新时间 2023-12-05

关于hadoop hive中使用hive分区功能

很多人习惯了使用第三方的工具去连接hive或者hbase数据库，并且使用其中的sql编辑器进行失去了语句的使用来进行数据的分析等一系列的操作，但是一些shell命令也可以在其中运行例如： 1. set hive.exec.dynamic.partition=true; 2. set hiv ......

hive 功能 hadoop更新时间 2023-12-05

七、Hadoop优化

优化1：Combiner 使用之前使用之后减少的了reduce 从map拉取数据的过程，提高计算效率。 hadoop 的计算特点：将计算任务向数据靠拢，而不是将数据向计算靠拢。特点：数据本地化，减少网络io。首先需要知道，hadoop数据本地化是指的map任务，reduce任务并不具备数据本 ......

Hadoop更新时间 2023-12-04

六、MapReduce

一、MapReduce设计理念 map >映射 reduce >归纳 mapreduce必须构建在hdfs之上的一种大数据离线计算框架在线：实时数据处理离线：数据处理时效性没有在线那么强，但是相对也需要很快得到结果 mapreduce不会马上得到结果，他会有一定的延时（磁盘IO）如果数据量小， ......

MapReduce更新时间 2023-12-04

centos7.5 hadoop NAT 静态IP网络环境搭建

1 设置 VMware 网络环境 1. 选择VMNet8 并将子网IP 修改为 192.168.10.0，保证集群ip都在这个网段下 2. 选择NAT 设置，配置NAT的网关为 192.168.10.2 2 设置 windows11 网络环境 1. 打开控制面板\网络和 Internet\网络连接 ......

静态 centos7 环境 centos hadoop更新时间 2023-12-03

Hadoop集群部署后相关WEB界面打不开大概原因

集群部署完毕后，查看相关WEB界面，打不开的原因可能如下： 1、可以先去检查LINUX（CentOS7）机器的防火墙是否关闭，命令如下： systemctl status firewalld.service （查看防火墙状态） (如果显示为关闭状态，则进行下一步；如果显示尚未关闭，则进行关闭并设定 ......

集群界面原因 Hadoop WEB更新时间 2023-12-03

大数据 - MapReduce：从原理到实战的全面指南

本文深入探讨了MapReduce的各个方面，从基础概念和工作原理到编程模型和实际应用场景，最后专注于性能优化的最佳实践。关注【TechLeadCloud】，分享互联网架构、云服务技术的全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验，同济本复旦硕，复旦机器人智能实验室成员 ......

实战 MapReduce 原理指南数据更新时间 2023-12-03

安装hadoop

hadoop:https://blog.csdn.net/weixin_44898710/article/details/109832031 将压缩包上传到服务器 # 上传到/home/software路径 # 设置权限 chmod 755 hadoop-3.2.1.tar.gz # 解压 tar ......

hadoop更新时间 2023-12-01

Hadoop 一些脚本总结

1.各个模板分开启动/停止 1.整体启动/停止 HDFS start-dfs.sh / stop-dfs.sh 2.整体启动/停止 YARN start-yarn.sh / stop-yarn.sh 2.各个服务组件逐一启动/停止 1.分别启动/停止 HDFS组件 hdfs --daemon sta ......

脚本 Hadoop更新时间 2023-12-01

Hadoop 配置日志聚集

本文章的前置Hadoop-3.3.6分布式集群搭建步骤概念：集群中的每台Hadoop节点的运行都会产生日志，开启日志聚集后，将所有运行日志信息上传到Hadoop HDFS系统上，可以更好的查看运行详情，方便开发及调试。注意：需要重启NodeManage、ResourceManager和Hist ......

Hadoop 日志更新时间 2023-12-01

hadoop高可用集群集成hive

hive和hadoop的关系从上图可以看出实际上外界是通过thrift server这个节点和hadoop的hdfs以及rm进行交互的，中间为driver 因此当我修改完hadoop集群为高可用的时候，hive也需要重新配置环境以下是我hive的全新配置 <configuration> <!-- ......

集群 hadoop hive更新时间 2023-12-01

Hadoop API 通过租户代理访问 Kerberos 安全 Hadoop 集群

这里记录一些方法，具备下面的特征： * 通过租户代理访问 Kerberos 认证的 HADOOP 资源 * 获取 FileSystem 对象的技巧：FileSystem.get(URI, configuration) * 通用 doAs模板 * 通用 hdfsCommand模板，使用 try-wit... ......

Hadoop 租户集群 Kerberos API更新时间 2023-11-30

四、Hadoop-HA 与 Hadoop-federation

一、Hadoop-HA 1.1 Hadoop1.x带来的问题 1、单点故障 a. 每个群集同一时刻只能有一个NameNode，NameNode存在单点故障（SPOF）。 b. 如果该计算机或进程不可用，则整个群集在整个NameNode重新启动或在另一台计算机上启动之前将不可用 c. 如果发生 ......

Hadoop Hadoop-federation federation Hadoop-HA HA更新时间 2023-11-29

二、Hadoop集群搭建与学习

Hadoop集群搭建（完全分布式版本）一、准备工作三台虚拟机：master、node1、node2 时间同步（3.x版本不用做） ntpdate ntp.aliyun.com 调整时区 3.x版本不用做） cp /usr/share/zoneinfo/Asia/Shanghai /etc/loc ......

集群 Hadoop更新时间 2023-11-29

大数据从入门到实战 - 第3章 MapReduce基础实战——信息挖掘 - 挖掘父子关系

输出一直顺序不正确，把正确答案和我自己写的混了混，目前感觉是mapper的问题正确输出： grand_child grand_parent Mark Jesse Mark Alice Philip Jesse Philip Alice Jone Jesse Jone Alice Steven Je ......

实战父子 MapReduce 基础数据更新时间 2023-11-27

Hadoop MapReduce 历史服务器配置

1.在mapred-site.xml中配置历史服务器 <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration> <!-- 设置MapReduce程序默认运行模式： ......

MapReduce 服务器 Hadoop 历史更新时间 2023-11-27

Hadoop 常用命令

1.文件类 1.新建文件夹 hadoop fs -mkdir {folderName} hadoop fs -mkdir /coreqi 2.上传文件 hadoop fs -put {localPath} {hadoopPath} hadoop fs -put /home/coreqi.txt /c ......

命令常用 Hadoop更新时间 2023-11-27

Hadoop-3.3.6分布式集群搭建步骤

1.下载JDK8 Linux 安装Openjdk 2.下载Hadoop3.3.6 Hadoop 安装及环境变量配置 3.创建hadoop数据存储的目录 mkdir -p /opt/hadoop/tmp /opt/hadoop/hdfs/data /opt/hadoop/hdfs/name 4.配置h ......

分布式集群步骤 Hadoop更新时间 2023-11-27

Hadoop运行模式之本地模式（wordcount）

本地模式总结起来大概有以下几点：单机运行，常用来演示，生产环境不适用文件存储在操作系统的文件系统中而非Hadoop的HDFS中 1.安装JDK https://www.cnblogs.com/fanqisoft/p/16949738.html 2.安装Hadoop https://www.cnb ......

模式 wordcount Hadoop更新时间 2023-11-26

Hadoop 环境变量配置

1.下载 https://hadoop.apache.org/releases.html 2.环境变量配置在/etc/profile.d中配置 1.新建hadoop.sh vi /etc/profile.d/hadoop.sh export HADOOP_HOME=/usr/hadoop/hado ......

变量环境 Hadoop更新时间 2023-11-26

spark的shuffle和mapreduce的shuffle的区别

功能上，MR的shuffle和Spark的shuffle是没啥区别的，都是对Map端的数据进行分区，要么聚合排序，要么不聚合排序，然后Reduce端或者下一个调度阶段进行拉取数据，完成map端到reduce端的数据传输功能。方案上，有很大的区别，MR的shuffle是基于合并排序的思想，在数据进入 ......

shuffle mapreduce spark更新时间 2023-11-26

一、Hadoop概述与初步学习

一、Hadoop的发展史 Google 爬取全球的网站，然后计算页面的PageRank 要解决网站的问题： a：这些网站怎么存放 b：这些网站应该怎么计算发布了三篇论文 a：GFS(Google File System) b：MapReduce(数据计算方法) c：BigTable-->HBase ......

Hadoop更新时间 2023-11-24

HDFS与MAPREDUCE操作

HDFS文件操作在分布式文件系统上验证HDFS文件命令，如下。 hadoop fs [genericOpitions] [-ls <path>] //显示目标路径当前目录下的所有文件 [-lsr <path>] //递归显示目标路径下的所有目录及文件（深度优先） [-du <path>] //以字 ......

MAPREDUCE HDFS更新时间 2023-11-21

运行hadoop version时出现此时不应有 \Hadoop\hadoop-3.2.4\bin\

在Windows环境下cmd运行Hadoop version命令时出现此时不应有 \Hadoop\hadoop-3.2.4\bin\ 报错在网上查到是因为环境变量的路径中有空格，但是我通过 where Java 和where hadoop 都没有发现空格但是我的路径中存在括号，当尝试将括号删除 ......

hadoop version Hadoop bin更新时间 2023-11-21

阿里云centos+Docker+hadoop

在阿里云上搭建hadoop 镜像：centos 容器：docker 软件：hadoop 阿里云centos+Docker+hadoop Docker 在Centos7下面安装docker （1）移除旧版： yum remove docker \ docker-client \ docker-clie ......

centos Docker hadoop更新时间 2023-11-21

hadoop的文件存储格式parquet

hadoop 里支持许多压缩算法。压缩的好处主要有两点：1. 减少了文件占用的存储空间，原来上 T 的文件可能压缩完以后只需要两三百 G 的空间即可；2. 文件的体积小了以后，数据传输的速度自然就快了。在现在的大数据环境下，这两点显得更加重要。所以现在 hdfs 文件系统上存的文件，如果数据量大到一 ......

parquet 格式文件 hadoop更新时间 2023-11-19

共410篇 :3/14页 首页上一页123456下一页尾页