hadoop spark

hadoop集群搭建及编程实践

Hadoop集群搭建 前期准备及JDK,hadoop安装 设置主机名和添加主机映射 验证连通性 SSH无密码登录 配置集群/分布式环境 修改workers 修改文件core-site.xml 修改hdfs-site.xml 修改mapred-site.xml 修改yarn-site.xml 分发到其 ......
集群 hadoop

Hadoop问题解决(3)

在启动hadoop过程中,出现如下错误: 192.168.10.100: Invalid maximum heap size: -Xmx0m192.168.10.100: Could not create the Java virtual machine.192.168.10.100: jobtra ......
Hadoop 问题

hadoop问题解决(4)

默认配置是将datanode,namenode,jobtracker,tasktracker,secondarynamenode的pid存放在/tmp目录下, 随着linux的定期清理, 这些pid就不见了,当然就无法停止了, 怎么解决呢?在/tmp目录创建或者修改hadoop-hadoop用户名- ......
hadoop 问题

【大数据】Hadoop配置(文档版本)

主机配置: 192.168.88.101 test1 192.168.88.102 test2 192.168.88.103 test3  Hadoop 上传压缩包并且解压 hadoop百度云:链接:https://pan.baidu.com/s/1DRV_x7Q_ZTUO4KMkr2-6Qg? ......
版本 文档 数据 Hadoop

Spark相关学习之基础认识

1、Spark相关概念介绍 是一个分布式计算框架; 2、Spark的框架模块 3、Spark运行模式 Spark总结概述: 4、Local模式 ......
基础 Spark

Hadoop问题解决记(2)

1. 发现问题 在对HBase集群进行压力测试过程中发现,当实际写入HBase和从HBase查询的量是平时的若干倍时(集群规模10~20台,每秒读写数据量在几十万条记录的量级),导致集群的读写出现一定程度的波动。具体如下: 1)写端抛出以下异常信息: org.apache.hadoop.hbase. ......
Hadoop 问题

Hadoop问题解决记(1)

最近在测试HBase时遇到一个非常奇怪的问题:集群有7台机器,其中1台Master,6台RegionServer。但是Master只能控制其中1台RegionServer,而无法控制其他5台RegionServer。 打开master的日志文件,发现以下错误信息: 2011-04-22 16:37: ......
Hadoop 问题

Spark算子实现wordCount的十种方法

//groupBy def wordCount1(sc:SparkContext) = { val rdd = sc.makeRDD(List("hello scala","hello spark")) val words: RDD[String] = rdd.flatMap(_.split(" " ......
算子 wordCount 方法 Spark

LINUX:FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask

如图,问题表现为linux中可直接通过hive进行数据插入 但在通过datagrip却更改不了 此时,可能时yarn的运行分配的内存较少,或堆内存溢出。在yarn-site.xml中更改,以及mapred-site.xml中更改,完成。 yarn的 <property> <name>yarn.sch ......
MapRedTask Execution FAILED return apache

MapReduce和Spark读取HBase快照表

1.概述 随着大数据技术的不断发展,处理海量数据的需求变得愈发迫切。MapReduce作为一种分布式计算模型,为处理大规模数据提供了有效的解决方案。在这篇博客中,我们将探讨如何使用MapReduce框架读取快照表(Snapshot Table)的数据。快照表是一种记录某一时刻系统状态的表格,通过Ma ......
快照 MapReduce HBase Spark

hadoop部署

mapred-site.xml <configuration><property> <name>mapreduce.framework.name</name> <value>yarn</value></property><property> <name>mapreduce.jobhistory.ad ......
hadoop

hadoop HA高可用集群搭建

首先是四项配置 core-site.xml <?xml version="1.0" encoding="UTF-8"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- Licensed under the Apach ......
集群 hadoop

搭建Hadoop环境

搭建Hadoop环境 一、虚拟机的安装 二、 安装JDK 1.下载jdk wget https://download.java.net/openjdk/jdk8u41/ri/openjdk-8u41-b04-linux-x64-14_jan_2020.tar.gz 使用上述命令安装 2.执行以下命令 ......
环境 Hadoop

spark环境部署之wordCount初体验

一.安装spark 1.1 下载并解压 官方下载地址:http://spark.apache.org/downloads.html ,选择 Spark 版本和对应的 Hadoop 版本后再下载: 解压安装包 # tar -zxvf spark-2.2.3-bin-hadoop2.6.tgz 1.2 ......
wordCount 环境 spark

大数据 | Spark基本使用示例

欢迎参观我的博客,一个Vue 与 SpringBoot结合的产物:https://poetize.cn 博客:https://gitee.com/littledokey/poetize-vue2.git 聊天室:https://gitee.com/littledokey/poetize-im-vue ......
示例 数据 Spark

本地测试Spark的svm算法

上一篇介绍了逻辑回归算法,发现分类效果不好,通过这次的svm发现是因为训练数据不行,于是网上找了部分训练数据,发现实际上分类效果还可以。 训练数据,第一个值是标签,下面的数据是某种花的相关特征。 1|5.1,3.5,1.4,0.2 1|4.9,3,1.4,0.2 1|4.7,3.2,1.3,0.2 ......
算法 Spark svm

Hadoop介绍

一,Hadoop介绍 狭义上Hadoop指的是Apache软件基金会的一款开源软件,用java语言实现。允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理 Hadoop核心组件 Hadoop HDFS(分布式文件存储系统):解决海量数据存储 Hadoop YARN(集群资源管理和任 ......
Hadoop

Hadoop集群搭建(完全分布式)

一,Hadoop集群简介 1.1 Hadoop集群整体概述 Hadoop集群包括两个集群:HDFS集群、YARN集群 两个集群逻辑上分离、通常物理上在一起 两个集群都是标准的主从架构集群 Hadoop两种集群内容: 逻辑上分离,物理上合并的理解: 逻辑上分离:两个集群互相之间没有依赖、互不影响 物理 ......
分布式 集群 Hadoop

本地测试Spark的逻辑回归算法

本地小数据量测试了一下Spark的LogisticRegressionWithSGD算法,效果不尽如人意。 数据样例如下,竖杠前的0,1代表两种类型,后面逗号隔开的是两个特征,两个特征只要有一个大于等于0.6就会被分为1这一类,否则就是0。 1|0.3,0.6 0|0.2,0.1 1|0.5,0.6 ......
算法 逻辑 Spark

hadoop和hive的兼容问题

本人之前搭建的集群是hadoop3.3.5+hive3.1.3版本,后来发现这两个版本不兼容,虽然官方文档里面说hive3.1.3版本兼容hadoop3.x.y版本,但是当我在使用hive 执行插入语句时发现一直报同一个错误 java.lang.ClassCastException: org.apa ......
hadoop 问题 hive

关于Hadoop和hive启动关闭的一些命令

Hadoop启动/关闭:start-all.sh / stop-all.sh HDFS:start-dfs.sh / stop-dfs.sh YARN:start-yarn.sh / stop-yarn.shhive 启动metastore服务: 前台启动 /export/server/apache ......
命令 Hadoop hive

Hadoop架构原理 hadoop 架构

Hadoop 1、Hadoop 2.0提供分布式存储(HDFS)和分布式操作系统(Yarn)两大功能软件包 2、Hadoop 1.0项目模块 Hadoop Common:支持其他模块的公用组件 Hadoop Distributed File System(HDFS):Hadoop的分布式文件系统 H ......
架构 原理 Hadoop hadoop

windows下安装和配置hadoop

1.安装hadoop 下载hadoop,下载地址: https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/ 建议不要下载最高版本,而是下载稳定版本,我下载的是3.2.3版本;将压缩包解压到安装目录,注意安装目录的路径中不要有空格; 我将h ......
windows hadoop

hadoop权威指南

Hadoop权威指南 第1部分 Hadoop基础知识 第2章 关于MapReduce MapReduce分为两个阶段,map阶段和reduce阶段。map函数是数据准备阶段,它会准备好一个键值对的数据集合,然后交由reduce函数来处理,比如进行排序、分组、聚合等操作。 MapReduce处理示例, ......
权威 指南 hadoop

在阿里云和腾讯云的轻量应用服务器上搭建Hadoop集群

引入 本文在两台2核2g的云服务器上搭建了Hadoop集群,两台云服务器分别是阿里云(hjm)和腾讯云(gyt),集群部署规划如下: hjm gyt HDFS NameNode\SecondaryNameNode\DataNode DataNode YARN ResourceManager\Node ......
轻量 集群 服务器 Hadoop

FAILED: HiveException java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient问题的解决

问题描述 今天再次打开虚拟机(之前交完作业之后,就不敢再打开了,害怕看到报错信息),打开hive之后,启用hive命令时,发现了这个问题; 问题解决 经查阅资料发现,原来是因为我再使用hive命令之前,没有开启metastore服务和hiveserver2服务,先开启了这两个服务,再进入hive里面 ......

图解Spark排序算子sortBy的核心源码

原创/朱季谦 一、案例说明 以前刚开始学习Spark的时候,在练习排序算子sortBy的时候,曾发现一个有趣的现象是,在使用排序算子sortBy后直接打印的话,发现打印的结果是乱序的,并没有出现完整排序。 例如,有一个包含多个(姓名,金额)结构的List数据,将这些数据按照金额降序排序时,代码及打印 ......
算子 源码 核心 sortBy Spark

【Flink系列十九】java.lang.NoSuchMethodError: org.apache.hadoop.tracing.TraceUtils.wrapHadoopConf

问题 Flink 提交作业,直接报错: java.lang.NoSuchMethodError: org.apache.hadoop.tracing.TraceUtils.wrapHadoopConf(Ljava/lang/String;Lorg/apache/hadoop/conf/Configu ......

本机hadoop version命令报错--JAVA_HOME is not set问题的解决

问题描述 输入hadoop version命令显示JAVA_HOME没有配置,但是本机的jdk配置正常! 问题解决 编辑hadoop/etc/hadoop目录下的hadoop-env.cmd文件: 将JAVA_HOME的值换成本机的绝对路径; 保存退出,再次尝试: ......
JAVA_HOME 命令 version hadoop 问题

配置本机的hadoop环境

1、下载对应的hadoop的压缩包和winutils包 并将下载好的包解压到自己对应的目录下面; 2、添加环境变量 在系统变量那里新增hadoop的本机路径: 在系统变量的Path里面新增: (C:\Program Files\NVIDIA Corporation\Nsight Compute 20 ......
环境 hadoop