mapreduce hadoop

Python、Spark SQL、MapReduce决策树、回归对车祸发生率影响因素可视化分析

原文链接：https://tecdat.cn/?p=34286 原文出处：拓端数据部落公众号分析师：Shichao Zhong 项目挑战如何处理庞大的数据集，并对数据进行可视化展示；在后续分析中特征选择是重点之一，要根据事实情况和数据易处理的角度来筛选变量解决方案任务/目标根据已有的车祸数 ......

发生率车祸 MapReduce 因素 Python更新时间 2023-11-18

Hadoop学习(一) 搭建伪分布式集群

文章结构 1.准备工作 1.1 配置IP 1.2 关闭防火墙 1.3 修改主机名并与IP绑定 1.4 创建新用户 1.5 配置免密匙 2.安装并配置Hadoop伪分布式集群 2.1 安装Java 2.2 安装配置Hadoop伪分布式集群 1.准备工作 1.1 配置IP 首先进入该路径下 cd /et ......

分布式集群 Hadoop更新时间 2023-11-17

hadoop fs -test的相关命令

Hadoop FileSystem（HDFS）提供了多种命令来检查文件系统的状态和操作。以下是一些常用的hadoop fs -test命令： hadoop fs -test -e <path>: 检查指定路径是否存在。如果存在，返回0；否则返回非0值。 hadoop fs -test -d <pat ......

命令 hadoop test fs更新时间 2023-11-13

11.9 hadoop学习

今天重新配置了hadoop，hbase，zookeeper，hive。 zk.sh start 启动zookeeperzk.sh stop 关闭zookeeperzk.sh status 查看zookeeper状态hbs.sh start 启动hbasehbs.sh stop 关闭hbaseall. ......

hadoop 11.9 11更新时间 2023-11-09

20231107学习总结-大型数据库-实验1.熟悉常用的Linux操作和Hadoop操作

实验1 熟悉常用的Linux操作和Hadoop操作 1.实验目的 Hadoop运行在Linux系统上，因此，需要学习实践一些常用的Linux命令。本实验旨在熟悉常用的Linux操作和Hadoop操作，为顺利开展后续其他实验奠定基础。 2.实验平台（1）操作系统：Linux（建议Ubuntu16.0 ......

20231107 常用数据库数据 Hadoop更新时间 2023-11-07

Hadoop：Yarn资源调度

1、Yarn是什么？ Apache Hadoop YARN （Yet Another Resource Negotiator 另一种资源协调者）是一种新的Hadoop资源管理器，提供一个通用资源管理系统和调度平台，可为上层应用提供统一的资源管理和调度。可以把Hadoop YARN理解为相当于一个分布 ......

Hadoop 资源 Yarn更新时间 2023-11-06

Hadoop-3.3.3分布式集群的文件配置，启动hadoop历史服务和启动日志聚集

一、分布式集群的文件配置涉及$HADOOP_HOME/etc/hadoop路径下的5个文件 workers、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml 首先修改workers 进入$HADOOP_HOME/etc/hadoop ......

分布式集群文件 Hadoop hadoop更新时间 2023-11-04

云计算-hadoop的安装（书接上回+分布式搭建）

书接上回，这次来进行分布式集群的搭建。执行命令：echo $JAVA_HOME 查看路径，我的路径如图所示：然后在/usr/local/hadoop目录下，执行命令gedit ./etc/hadoop/hadoop-env.sh 打开文本，然后再第一行添加刚刚的路径，如图所示：因为之前一节咱们 ......

分布式 hadoop更新时间 2023-11-04

hadoop 将nn节点的环境配置同步到dn节点

使用scp命令克隆配置输入 sudo scp -r jdk1.8.0_391/ hxf@slaver2:/opt/module 报错ssh: Could not resolve hostname hxf: Temporary failure in name resolution lost conn ......

节点环境 hadoop更新时间 2023-11-04

Finalshell给虚拟机安装JDK1.8，hadoop-3.3.3，hive3.1.2并配置环境

点击红框按钮，把下载好的jdk，hadoop，hive安装包上传到指定路径我的路径是/home/用户名/Downloads 查看上传文件 sudo tar -zxvf /home/hxf/Downloads/jdk-8u391-linux-x64.tar.gz -C /opt/module/ su ......

Finalshell 环境 hadoop hive3 JDK1更新时间 2023-11-04

Hadoop3.x和Hive3.x环境搭建

Hadoop3.3.6 创建hadoop用户 useradd hadoop su - hadoop ssh-keygen -t rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 0600 ~/.ssh/authorized_keys ......

Hadoop3 环境 Hadoop Hive3 Hive更新时间 2023-11-03

hadoop 基础学习

......

基础 hadoop更新时间 2023-11-01

hadoop 基础组件详解

......

组件基础 hadoop更新时间 2023-11-01

hadoop初体验1——官方案例pi值计算

1.执行命令 [hadoop@namenode mapreduce]$ hadoop jar hadoop-mapreduce-examples-3.3.6.jar pi 2 2 hadoop jarHadoop jar命令 hadoop-mapreduce-examples-3.3.6.jar程序 ......

案例官方 hadoop更新时间 2023-10-30

hadoop初体验2——官方案例wordcount

1.命令 [hadoop@namenode mapreduce]$ hadoop jar hadoop-mapreduce-examples-3.3.6.jar wordcount /wordcount/input /wordcount/output 执行命令hadoop jar hadoop-ma ......

wordcount 案例官方 hadoop更新时间 2023-10-30

Hadoop三大组件（HDFS,MapReduce,Yarn）

1、HDFS HDFS是Hadoop分布式文件系统。一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器，管理文件系统的命名空间和客户端对文件的访问操作；集群中的DataNode管理存储的数据。 2、MapReduce MapReduce是一个软件 ......

组件 MapReduce 三大 Hadoop HDFS更新时间 2023-10-30

window10安装单机hadoop

一、配置jdk 默认已配置二、下载hadoop3.2.2 http://archive.apache.org/dist/hadoop/common/hadoop-3.2.2/ 三、下载hadoop-winutils https://github.com/cdarlint/winutils 下载后将 ......

单机 window hadoop 10更新时间 2023-10-30

作业5 MapReduce

词频统计任务编程实践，任务要求：在Linux系统本地创建两个文件，即文件wordfile1.txt和wordfile2.txt，文件wordfile1.txt的内容格式如下，需要将zhangsan换成自己名字的英文全拼： zhangsan loves Spark zhangsan loves Had ......

MapReduce更新时间 2023-10-29

Google三驾马车之二：MapReduce

第一次接触mr还是在入门mit6.824的lab1，最近重新读了一遍原始论文，又有了一些新的想法，简单做一些记录。作为Google分布式系统的重要组成，本篇文章核心在于map/reduce操作带来的抽象并行化，给出接口之后，编写应用程序的程序员就不需要对底层的机制做过多的处理。而在本质上，mr只是 ......

马车 MapReduce Google更新时间 2023-10-26

云计算-hadoop的安装

云计算的课程，主要还是要梳理逻辑（尽管我不是做这个方向的，但是课程还是要好好完成！）前提：安装好虚拟机VirtualBox，并且下载好Ubuntu的光盘映像文件。文章思路： 1.配环境（SSH免密码登录，JAVA环境）２.配Hadoop（下载包，配置相应的环境）３.运行（感受一下实际例子） ......

hadoop更新时间 2023-10-26

Hadoop-大数据组件版本号查看

1．操作系统 cat /etc/redhat-release ; 2．JDK java -version 3．SCALA scala --version 4．MySQL mysql --version 5．Zookeeper ps -ef | grep -E “zookeeper-.*.jar” 6 ......

组件版本数据 Hadoop更新时间 2023-10-26

【1】基于docker搭建hadoop+hive+spark+hbase+zookeeper+scale集群

1、设置主机上的虚拟缓存当本地内存不足时，可以使用虚拟内存将一些内存数据转移到硬盘上，从而扩展计算机的内存容量。这样可以让计算机运行更复杂、更占用内存的程序，不会出现内存不足的情况。减轻物理存储器不足的压力，设置虚拟内存可以在内存不够的情况下将缓存一时放在硬盘上，解决内存不足问题。通过虚拟内存， ......

集群 zookeeper docker hadoop hbase更新时间 2023-10-24

基于docker容器，搭建hadoop+spark+hive+hbase+Zookeeper Scala集群

1.安装Docker和Docker Compose 2.下载镜像 docker pull bde2020/hadoop-base:2.0.0-hadoop3.2.1-java8 docker pull bde2020/hadoop-namenode:2.0.0-hadoop3.2.1-java8 d ......

集群容器 Zookeeper docker hadoop更新时间 2023-10-24

两台实体机器4个虚拟机节点的Hadoop集群搭建（Ubuntu版）

安装Ubuntu Linux元信息两台机器，每台机器两台Ubuntu Ubuntu版本：ubuntu-22.04.3-desktop-amd64.iso 处理器数量2，每个处理器的核心数量2，总处理器核心数量4 单个虚拟机内存8192MB（8G），最大磁盘大小30G 参考链接清华大学开源软件镜像 ......

节点集群实体机器 Hadoop更新时间 2023-10-22

报错Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create Spark client for Spark session 768047b9-c7f7-459f-9220-5d8d7bdabefe)

在执行hive on spark的时候上面的错误可能有以下几种问题： 1.版本问题不匹配 2.时间参数问题设置的参数太小了 3.在hive-site.xml文件中没有配置spark 的home 我的问题属于第一个问题导致没有跑成功当时也在想是不是内存出现了问题 ......

Failed Spark HiveException exception 7bdabefe更新时间 2023-10-22

共410篇 :4/14页 首页上一页1234567下一页尾页

526互联