mapreduce hadoop

Python、Spark SQL、MapReduce决策树、回归对车祸发生率影响因素可视化分析

原文链接:https://tecdat.cn/?p=34286 原文出处:拓端数据部落公众号 分析师:Shichao Zhong 项目挑战 如何处理庞大的数据集,并对数据进行可视化展示;在后续分析中特征选择是重点之一,要根据事实情况和数据易处理的角度来筛选变量 解决方案 任务/目标 根据已有的车祸数 ......
发生率 车祸 MapReduce 因素 Python

Hadoop学习(一) 搭建伪分布式集群

文章结构 1.准备工作 1.1 配置IP 1.2 关闭防火墙 1.3 修改主机名并与IP绑定 1.4 创建新用户 1.5 配置免密匙 2.安装并配置Hadoop伪分布式集群 2.1 安装Java 2.2 安装配置Hadoop伪分布式集群 1.准备工作 1.1 配置IP 首先进入该路径下 cd /et ......
分布式 集群 Hadoop

hadoop fs -test的相关命令

Hadoop FileSystem(HDFS)提供了多种命令来检查文件系统的状态和操作。以下是一些常用的hadoop fs -test命令: hadoop fs -test -e <path>: 检查指定路径是否存在。如果存在,返回0;否则返回非0值。 hadoop fs -test -d <pat ......
命令 hadoop test fs

11.9 hadoop学习

今天重新配置了hadoop,hbase,zookeeper,hive。 zk.sh start 启动zookeeperzk.sh stop 关闭zookeeperzk.sh status 查看zookeeper状态hbs.sh start 启动hbasehbs.sh stop 关闭hbaseall. ......
hadoop 11.9 11

20231107学习总结-大型数据库-实验1.熟悉常用的Linux操作和Hadoop操作

实验1 熟悉常用的Linux操作和Hadoop操作 1.实验目的 Hadoop运行在Linux系统上,因此,需要学习实践一些常用的Linux命令。本实验旨在熟悉常用的Linux操作和Hadoop操作,为顺利开展后续其他实验奠定基础。 2.实验平台 (1)操作系统:Linux(建议Ubuntu16.0 ......
20231107 常用 数据库 数据 Hadoop

Hadoop:Yarn资源调度

1、Yarn是什么? Apache Hadoop YARN (Yet Another Resource Negotiator 另一种资源协调者)是一种新的Hadoop资源管理器,提供一个通用资源管理系统和调度平台,可为上层应用提供统一的资源管理和调度。可以把Hadoop YARN理解为相当于一个分布 ......
Hadoop 资源 Yarn

Hadoop-3.3.3分布式集群的文件配置,启动hadoop历史服务和启动日志聚集

一、分布式集群的文件配置 涉及$HADOOP_HOME/etc/hadoop路径下的5个文件 workers、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml 首先修改workers 进入$HADOOP_HOME/etc/hadoop ......
分布式 集群 文件 Hadoop hadoop

云计算-hadoop的安装(书接上回+分布式搭建)

书接上回,这次来进行分布式集群的搭建。 执行命令:echo $JAVA_HOME 查看路径,我的路径如图所示: 然后在/usr/local/hadoop目录下,执行命令gedit ./etc/hadoop/hadoop-env.sh 打开文本,然后再第一行添加刚刚的路径,如图所示: 因为之前一节咱们 ......
分布式 hadoop

hadoop 将nn节点的环境配置同步到dn节点

使用scp命令克隆配置 输入 sudo scp -r jdk1.8.0_391/ hxf@slaver2:/opt/module 报错ssh: Could not resolve hostname hxf: Temporary failure in name resolution lost conn ......
节点 环境 hadoop

Finalshell给虚拟机安装JDK1.8,hadoop-3.3.3,hive3.1.2并配置环境

点击红框按钮,把下载好的jdk,hadoop,hive安装包上传到指定路径 我的路径是/home/用户名/Downloads 查看上传文件 sudo tar -zxvf /home/hxf/Downloads/jdk-8u391-linux-x64.tar.gz -C /opt/module/ su ......
Finalshell 环境 hadoop hive3 JDK1

Hadoop3.x和Hive3.x环境搭建

Hadoop3.3.6 创建hadoop用户 useradd hadoop su - hadoop ssh-keygen -t rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 0600 ~/.ssh/authorized_keys ......
Hadoop3 环境 Hadoop Hive3 Hive

hadoop 基础学习

......
基础 hadoop

hadoop 基础组件详解

......
组件 基础 hadoop

hadoop初体验1——官方案例pi值计算

1.执行命令 [hadoop@namenode mapreduce]$ hadoop jar hadoop-mapreduce-examples-3.3.6.jar pi 2 2 hadoop jarHadoop jar命令 hadoop-mapreduce-examples-3.3.6.jar程序 ......
案例 官方 hadoop

hadoop初体验2——官方案例wordcount

1.命令 [hadoop@namenode mapreduce]$ hadoop jar hadoop-mapreduce-examples-3.3.6.jar wordcount /wordcount/input /wordcount/output 执行命令hadoop jar hadoop-ma ......
wordcount 案例 官方 hadoop

Hadoop三大组件(HDFS,MapReduce,Yarn)

1、HDFS HDFS是Hadoop分布式文件系统。一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器,管理文件系统的命名空间和客户端对文件的访问操作;集群中的DataNode管理存储的数据。 2、MapReduce MapReduce是一个软件 ......
组件 MapReduce 三大 Hadoop HDFS

window10安装单机hadoop

一、配置jdk 默认已配置 二、下载hadoop3.2.2 http://archive.apache.org/dist/hadoop/common/hadoop-3.2.2/ 三、下载hadoop-winutils https://github.com/cdarlint/winutils 下载后将 ......
单机 window hadoop 10

作业5 MapReduce

词频统计任务编程实践,任务要求:在Linux系统本地创建两个文件,即文件wordfile1.txt和wordfile2.txt,文件wordfile1.txt的内容格式如下,需要将zhangsan换成自己名字的英文全拼: zhangsan loves Spark zhangsan loves Had ......
MapReduce

Google三驾马车之二:MapReduce

第一次接触mr还是在入门mit6.824的lab1,最近重新读了一遍原始论文,又有了一些新的想法,简单做一些记录。 作为Google分布式系统的重要组成,本篇文章核心在于map/reduce操作带来的抽象并行化,给出接口之后,编写应用程序的程序员就不需要对底层的机制做过多的处理。而在本质上,mr只是 ......
马车 MapReduce Google

云计算-hadoop的安装

云计算的课程,主要还是要梳理逻辑(尽管我不是做这个方向的,但是课程还是要好好完成!) 前提: 安装好虚拟机VirtualBox,并且下载好Ubuntu的光盘映像文件。 文章思路: 1.配环境(SSH免密码登录,JAVA环境) 2.配Hadoop(下载包,配置相应的环境) 3.运行(感受一下实际例子) ......
hadoop

Hadoop-大数据组件版本号查看

1.操作系统 cat /etc/redhat-release ; 2.JDK java -version 3.SCALA scala --version 4.MySQL mysql --version 5.Zookeeper ps -ef | grep -E “zookeeper-.*.jar” 6 ......
组件 版本 数据 Hadoop

【1】基于docker搭建hadoop+hive+spark+hbase+zookeeper+scale集群

1、设置主机上的虚拟缓存 当本地内存不足时,可以使用虚拟内存将一些内存数据转移到硬盘上,从而扩展计算机的内存容量。这样可以让计算机运行更复杂、更占用内存的程序,不会出现内存不足的情况。减轻物理存储器不足的压力,设置虚拟内存可以在内存不够的情况下将缓存一时放在硬盘上,解决内存不足问题。 通过虚拟内存, ......
集群 zookeeper docker hadoop hbase

基于docker容器,搭建hadoop+spark+hive+hbase+Zookeeper Scala集群

1.安装Docker和Docker Compose 2.下载镜像 docker pull bde2020/hadoop-base:2.0.0-hadoop3.2.1-java8 docker pull bde2020/hadoop-namenode:2.0.0-hadoop3.2.1-java8 d ......
集群 容器 Zookeeper docker hadoop

两台实体机器4个虚拟机节点的Hadoop集群搭建(Ubuntu版)

安装Ubuntu Linux元信息 两台机器,每台机器两台Ubuntu Ubuntu版本:ubuntu-22.04.3-desktop-amd64.iso 处理器数量2,每个处理器的核心数量2,总处理器核心数量4 单个虚拟机内存8192MB(8G),最大磁盘大小30G 参考链接 清华大学开源软件镜像 ......
节点 集群 实体 机器 Hadoop

报错Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create Spark client for Spark session 768047b9-c7f7-459f-9220-5d8d7bdabefe)

在执行hive on spark的时候 上面的错误可能有以下几种问题: 1.版本问题 不匹配 2.时间参数问题 设置的参数太小了 3.在hive-site.xml文件中没有配置spark 的home 我的问题属于第一个问题导致没有跑成功 当时也在想是不是内存出现了问题 ......

hadoop集群 大数据项目实战_电信用户行为分析_day04

进行HIVE环境配置 1.上传相关的包 2.对上传的包进行下载和创建软连接 3.配置相关的文件 4.分别发送给其他机子 假设你需要在所有机器执行同一个指令,则你就需要相关设置 5.在hive的onf文件中创建hive-site.xml进行相关设置 ```xml<configuration> <-- ......
行为分析 大数 集群 实战 行为

hadoop官方文档解读

Hadoop是一个分布式计算框架,用于存储和处理大规模数据集。 首先搞清楚为什么需要使用Hadoop Hadoop进行数据处理可以充分利用分布式计算和存储的优势,适用于大规模数据的批处理和分布式计算场景。 裸机上进行数据处理则更适合小规模数据或需要实时处理的场景。 在裸机上进行数据处理和使用Hado ......
文档 官方 hadoop

Hadoop 1

hadoop 的核心架构:包括hdfs 和 mapReduce, HDFS 为海量数据提供了存储,而MapReduce 为海量数据提供了计算框架。 HBase:实时分布式数据库,MapReduce:分布式计算框架,HDFS:分布式文件系统。 HDFS中包含三个重要角色: NameNode, Data ......
Hadoop

大数据mapReduce的学习

.2MapReduce模型简介•MapReduce将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数:Map和Reduce •编程容易,不需要掌握分布式并行编程细节,也可以很容易把自己的程序运行在分布式系统上,完成海量数据的计算 •MapReduce采用“分而治之”策略,一个存储在分布 ......
mapReduce 数据

hadoop集群 大数据项目实战_电信用户行为分析_day03

配置系统环境 Reis 1.先把之前的dump.rdb删除掉 rm -rf dump.rdb 2.把原始项目给的dump.rdb 放进来,它里面包含了需要的数据,比如端口;在这部之前必须要进行关闭端口,随后传送文件,最后重启端口 相关指令: bin/redis-server conf/redis.c ......
行为分析 大数 集群 实战 行为