hadoop spark

hadoop集群搭建及编程实践

Hadoop集群搭建前期准备及JDK，hadoop安装设置主机名和添加主机映射验证连通性 SSH无密码登录配置集群/分布式环境修改workers 修改文件core-site.xml 修改hdfs-site.xml 修改mapred-site.xml 修改yarn-site.xml 分发到其 ......

集群 hadoop更新时间 2023-10-08

Hadoop问题解决（3）

在启动hadoop过程中，出现如下错误： 192.168.10.100: Invalid maximum heap size: -Xmx0m192.168.10.100: Could not create the Java virtual machine.192.168.10.100: jobtra ......

Hadoop 问题更新时间 2023-10-08

hadoop问题解决（4）

默认配置是将datanode,namenode,jobtracker,tasktracker,secondarynamenode的pid存放在/tmp目录下, 随着linux的定期清理, 这些pid就不见了,当然就无法停止了, 怎么解决呢?在/tmp目录创建或者修改hadoop-hadoop用户名- ......

hadoop 问题更新时间 2023-10-08

【大数据】Hadoop配置（文档版本）

主机配置： 192.168.88.101 test1 192.168.88.102 test2 192.168.88.103 test3 Hadoop 上传压缩包并且解压 hadoop百度云：链接：https://pan.baidu.com/s/1DRV_x7Q_ZTUO4KMkr2-6Qg? ......

版本文档数据 Hadoop更新时间 2023-10-07

Spark相关学习之基础认识

1、Spark相关概念介绍是一个分布式计算框架； 2、Spark的框架模块 3、Spark运行模式 Spark总结概述： 4、Local模式 ......

基础 Spark更新时间 2023-10-07

Hadoop问题解决记（2）

1. 发现问题在对HBase集群进行压力测试过程中发现，当实际写入HBase和从HBase查询的量是平时的若干倍时（集群规模10~20台，每秒读写数据量在几十万条记录的量级），导致集群的读写出现一定程度的波动。具体如下： 1）写端抛出以下异常信息： org.apache.hadoop.hbase. ......

Hadoop 问题更新时间 2023-10-04

Hadoop问题解决记（1）

最近在测试HBase时遇到一个非常奇怪的问题：集群有7台机器，其中1台Master，6台RegionServer。但是Master只能控制其中1台RegionServer，而无法控制其他5台RegionServer。打开master的日志文件，发现以下错误信息： 2011-04-22 16:37: ......

Hadoop 问题更新时间 2023-10-04

Spark算子实现wordCount的十种方法

//groupBy def wordCount1(sc:SparkContext) = { val rdd = sc.makeRDD(List("hello scala","hello spark")) val words: RDD[String] = rdd.flatMap(_.split(" " ......

算子 wordCount 方法 Spark更新时间 2023-10-03

LINUX：FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask

如图，问题表现为linux中可直接通过hive进行数据插入但在通过datagrip却更改不了此时，可能时yarn的运行分配的内存较少，或堆内存溢出。在yarn-site.xml中更改，以及mapred-site.xml中更改，完成。 yarn的 <property> <name>yarn.sch ......

MapRedTask Execution FAILED return apache更新时间 2023-10-02

MapReduce和Spark读取HBase快照表

1.概述随着大数据技术的不断发展，处理海量数据的需求变得愈发迫切。MapReduce作为一种分布式计算模型，为处理大规模数据提供了有效的解决方案。在这篇博客中，我们将探讨如何使用MapReduce框架读取快照表（Snapshot Table）的数据。快照表是一种记录某一时刻系统状态的表格，通过Ma ......

快照 MapReduce HBase Spark更新时间 2023-09-30

hadoop部署

mapred-site.xml <configuration><property> <name>mapreduce.framework.name</name> <value>yarn</value></property><property> <name>mapreduce.jobhistory.ad ......

hadoop更新时间 2023-09-28

hadoop HA高可用集群搭建

首先是四项配置 core-site.xml <?xml version="1.0" encoding="UTF-8"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- Licensed under the Apach ......

集群 hadoop更新时间 2023-09-28

搭建Hadoop环境

搭建Hadoop环境一、虚拟机的安装二、安装JDK 1.下载jdk wget https://download.java.net/openjdk/jdk8u41/ri/openjdk-8u41-b04-linux-x64-14_jan_2020.tar.gz 使用上述命令安装 2.执行以下命令 ......

环境 Hadoop更新时间 2023-09-27

spark环境部署之wordCount初体验

一.安装spark 1.1 下载并解压官方下载地址：http://spark.apache.org/downloads.html ，选择 Spark 版本和对应的 Hadoop 版本后再下载：解压安装包 # tar -zxvf spark-2.2.3-bin-hadoop2.6.tgz 1.2 ......

wordCount 环境 spark更新时间 2023-09-27

大数据 | Spark基本使用示例

欢迎参观我的博客，一个Vue 与 SpringBoot结合的产物：https://poetize.cn 博客：https://gitee.com/littledokey/poetize-vue2.git 聊天室：https://gitee.com/littledokey/poetize-im-vue ......

示例数据 Spark更新时间 2023-09-27

本地测试Spark的svm算法

上一篇介绍了逻辑回归算法，发现分类效果不好，通过这次的svm发现是因为训练数据不行，于是网上找了部分训练数据，发现实际上分类效果还可以。训练数据，第一个值是标签，下面的数据是某种花的相关特征。 1|5.1,3.5,1.4,0.2 1|4.9,3,1.4,0.2 1|4.7,3.2,1.3,0.2 ......

算法 Spark svm更新时间 2023-09-26

Hadoop介绍

一，Hadoop介绍狭义上Hadoop指的是Apache软件基金会的一款开源软件，用java语言实现。允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理 Hadoop核心组件 Hadoop HDFS(分布式文件存储系统):解决海量数据存储 Hadoop YARN(集群资源管理和任 ......

Hadoop更新时间 2023-09-25

Hadoop集群搭建(完全分布式)

一，Hadoop集群简介 1.1 Hadoop集群整体概述 Hadoop集群包括两个集群:HDFS集群、YARN集群两个集群逻辑上分离、通常物理上在一起两个集群都是标准的主从架构集群 Hadoop两种集群内容：逻辑上分离，物理上合并的理解：逻辑上分离：两个集群互相之间没有依赖、互不影响物理 ......

分布式集群 Hadoop更新时间 2023-09-25

本地测试Spark的逻辑回归算法

本地小数据量测试了一下Spark的LogisticRegressionWithSGD算法，效果不尽如人意。数据样例如下，竖杠前的0,1代表两种类型，后面逗号隔开的是两个特征，两个特征只要有一个大于等于0.6就会被分为1这一类，否则就是0。 1|0.3,0.6 0|0.2,0.1 1|0.5,0.6 ......

算法逻辑 Spark更新时间 2023-09-25

hadoop和hive的兼容问题

本人之前搭建的集群是hadoop3.3.5+hive3.1.3版本，后来发现这两个版本不兼容，虽然官方文档里面说hive3.1.3版本兼容hadoop3.x.y版本，但是当我在使用hive 执行插入语句时发现一直报同一个错误 java.lang.ClassCastException: org.apa ......

hadoop 问题 hive更新时间 2023-09-24

关于Hadoop和hive启动关闭的一些命令

Hadoop启动/关闭：start-all.sh / stop-all.sh HDFS：start-dfs.sh / stop-dfs.sh YARN：start-yarn.sh / stop-yarn.shhive 启动metastore服务：前台启动 /export/server/apache ......

命令 Hadoop hive更新时间 2023-09-23

Hadoop架构原理 hadoop 架构

Hadoop 1、Hadoop 2.0提供分布式存储（HDFS）和分布式操作系统（Yarn）两大功能软件包 2、Hadoop 1.0项目模块 Hadoop Common：支持其他模块的公用组件 Hadoop Distributed File System（HDFS）：Hadoop的分布式文件系统 H ......

架构原理 Hadoop hadoop更新时间 2023-09-23

windows下安装和配置hadoop

1.安装hadoop 下载hadoop，下载地址： https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/ 建议不要下载最高版本，而是下载稳定版本，我下载的是3.2.3版本；将压缩包解压到安装目录，注意安装目录的路径中不要有空格；我将h ......

windows hadoop更新时间 2023-09-21

hadoop权威指南

Hadoop权威指南第1部分 Hadoop基础知识第2章关于MapReduce MapReduce分为两个阶段，map阶段和reduce阶段。map函数是数据准备阶段，它会准备好一个键值对的数据集合，然后交由reduce函数来处理，比如进行排序、分组、聚合等操作。 MapReduce处理示例， ......

权威指南 hadoop更新时间 2023-09-21

在阿里云和腾讯云的轻量应用服务器上搭建Hadoop集群

引入本文在两台2核2g的云服务器上搭建了Hadoop集群，两台云服务器分别是阿里云（hjm）和腾讯云（gyt），集群部署规划如下： hjm gyt HDFS NameNode\SecondaryNameNode\DataNode DataNode YARN ResourceManager\Node ......

轻量集群服务器 Hadoop更新时间 2023-09-20

FAILED: HiveException java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient问题的解决

问题描述今天再次打开虚拟机（之前交完作业之后，就不敢再打开了，害怕看到报错信息），打开hive之后，启用hive命令时，发现了这个问题；问题解决经查阅资料发现，原来是因为我再使用hive命令之前，没有开启metastore服务和hiveserver2服务，先开启了这两个服务，再进入hive里面 ......

SessionHiveMetaStoreClient RuntimeException HiveException instantiate metadata更新时间 2023-09-19

共540篇 :7/18页 首页上一页45678910下一页尾页

526互联