hadoop

云计算-hadoop的安装

云计算的课程,主要还是要梳理逻辑(尽管我不是做这个方向的,但是课程还是要好好完成!) 前提: 安装好虚拟机VirtualBox,并且下载好Ubuntu的光盘映像文件。 文章思路: 1.配环境(SSH免密码登录,JAVA环境) 2.配Hadoop(下载包,配置相应的环境) 3.运行(感受一下实际例子) ......
hadoop

Hadoop-大数据组件版本号查看

1.操作系统 cat /etc/redhat-release ; 2.JDK java -version 3.SCALA scala --version 4.MySQL mysql --version 5.Zookeeper ps -ef | grep -E “zookeeper-.*.jar” 6 ......
组件 版本 数据 Hadoop

【1】基于docker搭建hadoop+hive+spark+hbase+zookeeper+scale集群

1、设置主机上的虚拟缓存 当本地内存不足时,可以使用虚拟内存将一些内存数据转移到硬盘上,从而扩展计算机的内存容量。这样可以让计算机运行更复杂、更占用内存的程序,不会出现内存不足的情况。减轻物理存储器不足的压力,设置虚拟内存可以在内存不够的情况下将缓存一时放在硬盘上,解决内存不足问题。 通过虚拟内存, ......
集群 zookeeper docker hadoop hbase

基于docker容器,搭建hadoop+spark+hive+hbase+Zookeeper Scala集群

1.安装Docker和Docker Compose 2.下载镜像 docker pull bde2020/hadoop-base:2.0.0-hadoop3.2.1-java8 docker pull bde2020/hadoop-namenode:2.0.0-hadoop3.2.1-java8 d ......
集群 容器 Zookeeper docker hadoop

两台实体机器4个虚拟机节点的Hadoop集群搭建(Ubuntu版)

安装Ubuntu Linux元信息 两台机器,每台机器两台Ubuntu Ubuntu版本:ubuntu-22.04.3-desktop-amd64.iso 处理器数量2,每个处理器的核心数量2,总处理器核心数量4 单个虚拟机内存8192MB(8G),最大磁盘大小30G 参考链接 清华大学开源软件镜像 ......
节点 集群 实体 机器 Hadoop

报错Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create Spark client for Spark session 768047b9-c7f7-459f-9220-5d8d7bdabefe)

在执行hive on spark的时候 上面的错误可能有以下几种问题: 1.版本问题 不匹配 2.时间参数问题 设置的参数太小了 3.在hive-site.xml文件中没有配置spark 的home 我的问题属于第一个问题导致没有跑成功 当时也在想是不是内存出现了问题 ......

hadoop集群 大数据项目实战_电信用户行为分析_day04

进行HIVE环境配置 1.上传相关的包 2.对上传的包进行下载和创建软连接 3.配置相关的文件 4.分别发送给其他机子 假设你需要在所有机器执行同一个指令,则你就需要相关设置 5.在hive的onf文件中创建hive-site.xml进行相关设置 ```xml<configuration> <-- ......
行为分析 大数 集群 实战 行为

hadoop官方文档解读

Hadoop是一个分布式计算框架,用于存储和处理大规模数据集。 首先搞清楚为什么需要使用Hadoop Hadoop进行数据处理可以充分利用分布式计算和存储的优势,适用于大规模数据的批处理和分布式计算场景。 裸机上进行数据处理则更适合小规模数据或需要实时处理的场景。 在裸机上进行数据处理和使用Hado ......
文档 官方 hadoop

Hadoop 1

hadoop 的核心架构:包括hdfs 和 mapReduce, HDFS 为海量数据提供了存储,而MapReduce 为海量数据提供了计算框架。 HBase:实时分布式数据库,MapReduce:分布式计算框架,HDFS:分布式文件系统。 HDFS中包含三个重要角色: NameNode, Data ......
Hadoop

hadoop集群 大数据项目实战_电信用户行为分析_day03

配置系统环境 Reis 1.先把之前的dump.rdb删除掉 rm -rf dump.rdb 2.把原始项目给的dump.rdb 放进来,它里面包含了需要的数据,比如端口;在这部之前必须要进行关闭端口,随后传送文件,最后重启端口 相关指令: bin/redis-server conf/redis.c ......
行为分析 大数 集群 实战 行为

hadoop集群 大数据项目实战_电信用户行为分析_day02

集群配置好后,运行一个小例子,统计单词 1.hdfs dfs -put 将本地系统的文件或文件夹复制到HDFS上 2.hdfs dfs -ls /output 将所有的文件显示出来 3.hdfs dfs -cat /output/ 将所有的文件读取出来 下载part-r-000000 安装Redis ......
行为分析 大数 集群 实战 行为

Hadoop-3.3.5 自动安装

Hadoop-3.3.5 自动安装脚本 为了方便数据科学与大数据技术的 hadoop-3.3.5 安装与配置 目前适用于新安装的纯净虚拟机,未配置冲突检测.. 所以安装的话请使用全新创建的机器以避免错误... 如何使用 ssh localhost 输入你目前用户的密码 exit 退出当前ssh终端( ......
Hadoop

hadoop集群 大数据项目实战_电信用户行为分析_day01

上图是相关配置的要求,主要创建了四个虚拟系统,有三台虚拟机搭建hadoop集群,一台作为业务系统。 涉及到相关的Linux指令有::set nu[显示行号] :6[到第6行 shift+G跳到最后一行 进入vi指令后查找相关东西/(你需要查找的东西) 1.配置环境、 第一步设置网络参数,设置静态网络 ......
行为分析 大数 集群 实战 行为

基于Docker搭建Hadoop+Hive

基于Docker搭建Hadoop+Hive 本文主要是照搬这篇文章的https://zhuanlan.zhihu.com/p/242658224,但是这篇文章有一些细节配置没有讲清楚,这里对其进行完善 零、环境信息 电脑配置 Ubuntu 20.04.6 LTS (Focal Fossa) 5.15 ......
Docker Hadoop Hive

Hadoop-Operation category READ is not supported in state standby 故障解决

在查询hdfs时或者执行程序向hdfs写入数据时遇到报错:Operation category READ is not supported in state standby 意思是:该主机状态为待机,不支持操作类别READ. 你会发现最基本的hdfs命令都不能执行,例如:hadoop fs -ls ......

Hadoop2伪分布式安装

最近有观看我主讲的《Hadoop基础与演练》课程的同学问到Hadoop环境到底应该怎么安装。Hadoop的安装其实非常的简单,网上有很多教程,官网也有示例。但是可能部分同学对于linux不太熟悉,导致安装的时候会遇到各种问题,打击学习激情。本文就来详细的讲解一下如何配置Hadoop2的伪分布式环境, ......
分布式 Hadoop2 Hadoop

Hadoop问题解决(5)

当一个HDFS系统同时处理许多个并行的put操作,往HDFS上传数据时,有时候会出现dfsclient 端发生socket 链接超时的报错,有的时候甚至会由于这种原因导致最终的put操作失败,造成数据上传不完整。log类似如下:All datanodes *** are bad. Aborting. ......
Hadoop 问题

在hadoop虚拟机里面使用hadoop jar运行打包文件,出现Exception in thread "main" org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.RpcNoSuchProtocolException): Unknown protocol: org.apache.hadoop.的问题的解决

问题描述 更改了JDK版本之后,再次运行又出现了这个错误: 问题解决 经过查阅相关资料,发现是自己定义的hdfs的路径不太对,本来写的是这样的: 然后自己确实不记得配置环境时配置的是多少,就看了看这个文件core.site.xml: cat core-site.xml 然后看到这里: 使用的端口号是 ......

hadoop集群搭建及编程实践

Hadoop集群搭建 前期准备及JDK,hadoop安装 设置主机名和添加主机映射 验证连通性 SSH无密码登录 配置集群/分布式环境 修改workers 修改文件core-site.xml 修改hdfs-site.xml 修改mapred-site.xml 修改yarn-site.xml 分发到其 ......
集群 hadoop

Hadoop问题解决(3)

在启动hadoop过程中,出现如下错误: 192.168.10.100: Invalid maximum heap size: -Xmx0m192.168.10.100: Could not create the Java virtual machine.192.168.10.100: jobtra ......
Hadoop 问题

hadoop问题解决(4)

默认配置是将datanode,namenode,jobtracker,tasktracker,secondarynamenode的pid存放在/tmp目录下, 随着linux的定期清理, 这些pid就不见了,当然就无法停止了, 怎么解决呢?在/tmp目录创建或者修改hadoop-hadoop用户名- ......
hadoop 问题

【大数据】Hadoop配置(文档版本)

主机配置: 192.168.88.101 test1 192.168.88.102 test2 192.168.88.103 test3  Hadoop 上传压缩包并且解压 hadoop百度云:链接:https://pan.baidu.com/s/1DRV_x7Q_ZTUO4KMkr2-6Qg? ......
版本 文档 数据 Hadoop

Hadoop问题解决记(2)

1. 发现问题 在对HBase集群进行压力测试过程中发现,当实际写入HBase和从HBase查询的量是平时的若干倍时(集群规模10~20台,每秒读写数据量在几十万条记录的量级),导致集群的读写出现一定程度的波动。具体如下: 1)写端抛出以下异常信息: org.apache.hadoop.hbase. ......
Hadoop 问题

Hadoop问题解决记(1)

最近在测试HBase时遇到一个非常奇怪的问题:集群有7台机器,其中1台Master,6台RegionServer。但是Master只能控制其中1台RegionServer,而无法控制其他5台RegionServer。 打开master的日志文件,发现以下错误信息: 2011-04-22 16:37: ......
Hadoop 问题

LINUX:FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask

如图,问题表现为linux中可直接通过hive进行数据插入 但在通过datagrip却更改不了 此时,可能时yarn的运行分配的内存较少,或堆内存溢出。在yarn-site.xml中更改,以及mapred-site.xml中更改,完成。 yarn的 <property> <name>yarn.sch ......
MapRedTask Execution FAILED return apache

hadoop部署

mapred-site.xml <configuration><property> <name>mapreduce.framework.name</name> <value>yarn</value></property><property> <name>mapreduce.jobhistory.ad ......
hadoop

hadoop HA高可用集群搭建

首先是四项配置 core-site.xml <?xml version="1.0" encoding="UTF-8"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- Licensed under the Apach ......
集群 hadoop

搭建Hadoop环境

搭建Hadoop环境 一、虚拟机的安装 二、 安装JDK 1.下载jdk wget https://download.java.net/openjdk/jdk8u41/ri/openjdk-8u41-b04-linux-x64-14_jan_2020.tar.gz 使用上述命令安装 2.执行以下命令 ......
环境 Hadoop

Hadoop介绍

一,Hadoop介绍 狭义上Hadoop指的是Apache软件基金会的一款开源软件,用java语言实现。允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理 Hadoop核心组件 Hadoop HDFS(分布式文件存储系统):解决海量数据存储 Hadoop YARN(集群资源管理和任 ......
Hadoop

Hadoop集群搭建(完全分布式)

一,Hadoop集群简介 1.1 Hadoop集群整体概述 Hadoop集群包括两个集群:HDFS集群、YARN集群 两个集群逻辑上分离、通常物理上在一起 两个集群都是标准的主从架构集群 Hadoop两种集群内容: 逻辑上分离,物理上合并的理解: 逻辑上分离:两个集群互相之间没有依赖、互不影响 物理 ......
分布式 集群 Hadoop