hadoop spark

Java语言在Spark3.2.4集群中使用Spark MLlib库完成朴素贝叶斯分类器

一、贝叶斯定理 贝叶斯定理是关于随机事件A和B的条件概率,生活中,我们可能很容易知道P(A|B),但是我需要求解P(B|A),学习了贝叶斯定理,就可以解决这类问题,计算公式如下: P(A)是A的先验概率 P(B)是B的先验概率 P(A|B)是A的后验概率(已经知道B发生过了) P(B|A)是B的后验 ......
Spark 集群 语言 Spark3 MLlib

openEuler 单机部署 Hadoop SingleNode 模式

openEuler 单机部署 Hadoop SingleNode 模式 升级操作系统和软件 yum -y update 升级后建议重启 安装常用软件 yum -y install gcc gcc-c++ autoconf automake cmake make rsync openssh-serve ......
SingleNode 单机 openEuler 模式 Hadoop

hadoop优化

# Hadoop优化 ## 案例、天气预报 > 随机生成温度代码 ```java package com.shujia.weather; import java.text.DateFormat; import java.text.ParseException; import java.text.Si ......
hadoop

分布式计算技术(上):经典计算框架MapReduce、Spark 解析

当一个计算任务过于复杂不能被一台服务器独立完成的时候,我们就需要分布式计算。分布式计算技术将一个大型任务切分为多个更小的任务,用多台计算机通过网络组装起来后,将每个小任务交给一些服务器来独立完成,最终完成这个复杂的计算任务。本篇我们介绍两个经典的计算框架MapReduce和Spark。 — MapR ......
分布式 MapReduce 框架 经典 Spark

linux系统下Hadoop集群环境搭建

1、前言 基于redhat7.6系统搭建全分布式Hadoop3.3.5集群环境(模拟三台机,1主角色,2从角色)。 2、安装虚拟机 参考:https://www.cnblogs.com/jpxjx/p/16800831.html 3、虚拟机安装redhat7.6 参考:https://www.cnb ......
集群 环境 Hadoop 系统 linux

Hadoop与Hadoop集群介绍

1、什么是Hadoop 狭义上Hadoop指的是Apache软件基金会的一款开源软件。用java语言实现,开源。允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理 广义上Hadoop指的是围绕Hadoop打造的大数据生态圈。 2、Hadoop核心组件 Hadoop HDFS(分布式 ......
Hadoop 集群

大数据面试题集锦-Hadoop面试题(一)

你准备好面试了吗?这里有一些面试中可能会问到的问题以及相对应的答案。 1、集群的最主要瓶颈 磁盘IO 2、Hadoop运行模式 单机版、伪分布式模式、完全分布式模式 3、Hadoop生态圈的组件并做简要描述 Zookeeper:是一个开源的分布式应用程序协调服务,基于zookeeper可以实现同步服 ......
试题集锦 集锦 试题 数据 Hadoop

hadoop学习记录

Hadoop简介安装 狭义上Hadoop指的是Apache软件基金会的一款开源软件用java语言实现,开源允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理 Hadoop核心组件 Hadoop HDFS(分布式文件存储系统):解决海量数据存储 Hadoop YARN(集群资源管理和 ......
hadoop

Error: Could not open client transport with JDBC Uri: jdbc:hive2://hadoop1:10000:

解决方法:配置超级用户代理其他用户 在hadoop配置文件core-site.xml添加 <property> <name>hadoop.proxyuser.super.hosts</name> <value>host1,host2</value> </property> <property> <n ......
transport hadoop1 client hadoop Error

spark 的几个简单实例

最近写了几个简单的spark structured streaming 的代码实例。 目的是熟悉spark 开发环境搭建, spark 代码开发流程。 开发环境: 系统:win 11 java : 1.8 scala:2.13 工具:idea 2022.2 ,maven 3, git 2.37 sp ......
实例 spark

Spark on Yarn配置

1、Spark on Yarn配置 1.)在搭建好的Spark上修改spark-env.sh文件: # vim $SPARK_HOME/conf/spark-env.sh 添加以下配置: export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop export ......
Spark Yarn on

Hadoop3常用端口

Namenode默认端口: | 端口 | 介绍 | | | | | 9820 | NameNode默认的内部端口 | | 9870 | NameNode的web访问(http访问)端口 | | 9871 | NameNode的web访问(https访问)端口 | Secondary Namenode ......
端口 常用 Hadoop3 Hadoop

Hadoop完全分布式集群搭建

0 准备工作 首先需要准备三台虚拟机,这里准备的是hadoop1,hadoop1,hadoop3,虚拟机机要求如下: 配置了静态IP。 关闭了防火墙的。 虚拟机下载安装:https://www.cnblogs.com/lgjb/p/17292698.html 1 配置ssh免密登录 配置ssh免密登 ......
分布式 集群 Hadoop

EasyMR 安全架构揭秘:如何管理 Hadoop 数据安全

2017年,美国信用评级机构 Equifax 遭受黑客攻击,导致1.4亿个人的敏感信息泄露; 2020年,发生了 SolarWinds 公司的软件供应链遭受恶意代码攻击事件,涉及多个行业和国家; 2022年,网信办依据《数据安全法》等法律法规,对滴滴公司开出人民币80.26亿元的巨额罚款,对互联网企 ......
架构 数据 EasyMR Hadoop

Spark学习笔记01

1、spark程序开发完成后,打包成jar包。 如何将jar包分发到 spark集群?1、启动集群 启动master ./sbin/start-master.sh 启动worker ./bin/spark-class org.apache.spark.deploy.worker.worker spa ......
笔记 Spark

MongoDB 和 Hadoop的对比

MongoDB 和 Hadoop 都是当前非常流行的大数据处理技术。虽然它们都可以用于处理大规模数据,但是它们之间有许多区别。本文将对 MongoDB 和 Hadoop 进行比较,并提供一些指导,以帮助您选择最适合您应用程序的技术。 ###数据存储 MongoDB 是一个文档型数据库,使用类似于 J ......
MongoDB Hadoop

Hadoop搭建(集群)

HADOOP配置文件 | | core-site.xml | | | | | hadoop.tmp.dir | /opt/hadoop/tmp | | fs.defaultFS | hdfs://master:9000 | | | hdfs-site.xml | | | | | hadoop.nam ......
集群 Hadoop

Hadoop、Hive和Spark的关系

大数据技术生态中,Hadoop、Hive、Spark是什么关系?| 通俗易懂科普向 Hadoop、Hive和Spark,都是大数据相关的系统和技术。 大数据也是数据管理系统的范畴。数据管理系统涉及两个方面的问题,一个是数据怎么存储?一个是数据怎么计算? 为了方便理解,我们需要从单机的时代来讲解。 在 ......
Hadoop Spark Hive

大数据经典论文解读 - Spark

Spark Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing 可看作一个支持多轮迭代的MapReduce模型,但是引入了 RDD 这样的函数式对象的数据集概念。Sp ......
经典 数据 论文 Spark

A7--Spark部署

一、版本信息 JDK 1.8 spark 3.2.1 二、安装部署 1)上传解压缩文件 tar -zxvf spark-3.2.1-bin-hadoop3.2.tgz 2)配置环境变量 vim /etc/profile # Spark export SPARK_HOME=/opt/spark-3.2 ......
Spark A7

A3--Hadoop部署

基础环境:Centos 7.9 一、版本信息 JDK 1.8 Hadoop 3.1.3 二、部署前准备: 1.执行init.sh(环境初始化脚本) 2.执行java.sh(安装java环境) 3.hosts主机名映射 4.ssh免密登录(管理节点对数据节点) 5.集群时间同步 6.部署zookeep ......
Hadoop A3

Hive 和 Spark 分区策略剖析

随着技术的不断的发展,大数据领域对于海量数据的存储和处理的技术框架越来越多。在离线数据处理生态系统最具代表性的分布式处理引擎当属Hive和Spark,它们在分区策略方面有着一些相似之处,但也存在一些不同之处。 ......
策略 Spark Hive

通过 docker-compose 快速部署 Hadoop 集群极简教程

前面那篇文章内容过多,可能小伙伴只是想快速部署,所以这里出了一个极简的部署教程,如果想了解详细部署过程,可以建议参考我上一篇的文章:通过 docker-compose 快速部署 Hadoop 集群详细教程 1)安装 docker # 安装yum-config-manager配置工具 yum -y i ......
集群 docker-compose compose 教程 docker

Hadoop报错只no such file or drector exist.

场景:在运行bin.hdfs dfs -mkdir XXXXXXXXX的命令的时候报此路径或者文件不存在。 解决办法: hadoop fs -mkdir -p /user/hadoop/ TRANSLATE with x English Arabic Hebrew Polish Bulgarian ......
drector Hadoop exist such file

idea中spark安装

Idea中spark的安装配置 下载Scala插件后新建scala项目 更改scala的SDK(下载的版本)和jdk并且更改工作空间 导入spark相关的架包找到安装路径导入jars或者lib(找到Libraries添加ScalaSDK和java) 设置maven全局的参数(导入maven的安装路径 ......
spark idea

通过 docker-compose 快速部署 Hadoop 集群详细教程

一、概述 docker-compose 项目是docker官方的开源项目, 负责实现对docker容器集群的快速编排,来轻松高效的管理容器,定义运行多个容器。 通过docker-compose来部署应用是非常简单和快捷的。但是因为docker-compose是管理单机的,所以一般通过docker-c ......
集群 docker-compose compose 教程 docker

hadoop3.3 安装配置sqoop1.4.7

一:在hadoop3.3中安装配置sqoop1.4.7 前言: sqoop功能已经非常完善了,没有什么可以更新的了,官方停止更新维护了。因此官方集成的hadoop包停留在了2.6.0版本,在hadoop3.3.0版本会提示类版本过低错误,但纯净版sqoop有缺少必须的第三方库,所以将这两个包下载下来 ......
hadoop3 hadoop sqoop1 sqoop 4.7

Spark源码解析(二):Spark闭包检查

一、理解 Scala 闭包:Closures 1.1 闭包的定义 闭包就是一个函数和与其相关的引用环境组合的一个整体(实体)。进一步说,闭包是绑定了自由变量的函数实例。 通常来讲,闭包的实现机制是定义一个特殊的数据结构,保存了函数地址指针与闭包创建时的函数的词法环境以及绑定自由变量。 对于闭包最好的 ......
闭包 Spark 源码

Spark源码解析(一):RDD之Transfrom算子

一、延迟计算 RDD 代表的是分布式数据形态,因此,RDD 到 RDD 之间的转换,本质上是数据形态上的转换(Transformations) 在 RDD 的编程模型中,一共有两种算子,Transformations 类算子和 Actions 类算子。开发者需要使用 Transformations ......
算子 Transfrom 源码 Spark RDD