hadoop spark

Hadoop-3.3.5单节点开启Kerberos认证

1、Hadoop单节点部署 部署过程看官方文档即可 https://hadoop.apache.org/ 为增加执行命令的便利性,添加hadoop的环境变量: vim /etc/profile.d/hadoop.sh export HADOOP_HOME=/usr/local/hadoop-3.3. ......
节点 Kerberos Hadoop

为什么使用Flink替代Spark?

一,Flink是真正的流处理,延迟在毫秒级,Spark Streaming是微批,延迟在秒级。 二,Flink可以处理事件时间,而Spark Streaming只能处理机器时间,无法保证时间语义的正确性。 三,Flink的检查点算法比Spark Streaming更加灵活,性能更高。Spark St ......
Flink Spark

Spark性能优化

### 性能优化分析 一个计算任务的执行主要依赖于CPU、内存、带宽 Spark是一个基于内存的计算引擎,所以对它来说,影响最大的可能就是内存,一般我们的任务遇到了性能瓶颈大概率都是内存的问题,当然了CPU和带宽也可能会影响程序的性能,这个情况也不是没有的,只是比较少。 Spark性能优化,其实主要 ......
性能 Spark

Spark扩展内容

### 宽依赖和窄依赖 - 窄依赖(Narrow Dependency):指父RDD的每个分区只被子RDD的一个分区所使用,例如map、filter等这些算子 一个RDD,对它的父RDD只有简单的一对一的关系,也就是说,RDD的每个partition仅仅依赖于父RDD中的一个partition,父R ......
内容 Spark

Spark之RDD相关

### 创建RDD RDD是Spark编程的核心,在进行Spark编程时,首要任务是创建一个初始的RDD,这样就相当于设置了Spark应用程序的输入源数据 然后在创建了初始的RDD之后,才可以通过Spark 提供的一些高阶函数,对这个RDD进行操作,来获取其它的RDD Spark提供三种创建RDD方 ......
Spark RDD

Spark实战

### WordCount程序 这个需求就是类似于我们在学习MapReduce的时候写的案例 需求这样的:读取文件中的所有内容,计算每个单词出现的次数 注意:由于Spark支持Java、Scala这些语言,目前在企业中大部分公司都是使用Scala语言进行开发,个别公司会使用java进行开发,为了加深 ......
实战 Spark

Spark详解

### 什么是Spark Spark是一个用于大规模数据处理的统一计算引擎 注意:Spark不仅仅可以做类似于MapReduce的离线数据计算,还可以做实时数据计算,并且它还可以实现类似于Hive的SQL计算,等等,所以说它是一个统一的计算引擎 既然说到了Spark,那就不得不提一下Spark里面最 ......
Spark

Hadoop - HDFS 概述

什么是HDFS HDFS的优缺点 HDFS的文件块大小 HDFS的写数据流程 HDFS的副本配置策略 HDFS读数据的流程 什么是HDFS HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器 ......
Hadoop HDFS

flink安装(无hadoop)

下载Flink:访问Flink的官方网站(https://flink.apache.org/),在下载页面找到适合你操作系统的预编译二进制包。选择与你的操作系统和版本相对应的下载链接,点击下载。 解压二进制包:下载完成后,将二进制包解压到你想要安装Flink的目录中。你可以使用命令行工具(如tar命 ......
hadoop flink

spark 常用参数和默认配置

##常用的Spark任务参数及其作用: 1. `spark.driver.memory`:设置driver进程使用的内存大小,默认为1g。 2. `spark.executor.memory`:设置每个executor进程使用的内存大小,默认为1g。 3. `spark.executor.cores ......
常用 参数 spark

hadoop 生态环境

HDFS角色及概念 hadoop体系中数据存储管理的基础,是一个高度蓉错的系统,用于在低成本的通用硬件上运行 角色和概念 — Client — NameNode — Secondarynode — Datanode NameNode — Master节点,管理HDFS的(名称空间和数据块映射信息)就 ......
生态环境 生态 环境 hadoop

【博学谷学习记录】超强总结,用心分享 | Hadoop

【博学谷IT技术支持】 # 一、介绍 ## 概念 [Apache™ Hadoop®](https://hadoop.apache.org/) 项目为可靠、可扩展的分布式计算开发开源软件。允许简单的编程模型在大量计算机集群上对大型数据集群进行分布式处理。 项目包含以下模块: - `Common`: 支 ......
Hadoop

【博学谷学习记录】超强总结,用心分享 | hadoop的组成

【博学谷IT技术支持】 公众号: 积雷山摩云洞,欢迎关注!!! # hadoop的构成 hadoop集群主要包含:HDFS集群、MapReduce、YARN集群。HDFS集群复制海量数据的存储,MapReduce负责海量计算,Yarn集群存在数据运算时的资源调度。 - hdfs集群主要包含了角色na ......
hadoop

大数据面试题集锦-Hadoop面试题(二)-HDFS

> 你准备好面试了吗?这里有一些面试中可能会问到的问题以及相对应的答案。如果你需要更多的面试经验和面试题,关注一下"张飞的猪大数据分享"吧,公众号会不定时的分享相关的知识和资料。 [TOC] ## 1、 HDFS 中的 block 默认保存几份? 默认保存3份 ## 2、HDFS 默认 BlockS ......
试题集锦 集锦 试题 数据 Hadoop

【博学谷学习记录】超强总结,用心分享 | spark知识点总结2

【博学谷IT技术支持】 #### Action动作算子 * reduce: 通过func函数聚集RDD中的所有元素,这个功能必须是可交换且可并联的 * collect: 在驱动程序中,以数组的形式返回数据集的所有元素 * count: 返回RDD的元素个数 * first: 返回RDD的第一个元素( ......
知识点 知识 spark

Windows 配置 Hadoop and Spark

一 JDK环境配置 由于项目用的JDK17,所以单独给Hadoop配了JDK11,建议直接配置JAVA_HOME环境变量为JDK11,因为后面Spark需要用到JAVA_HOME 下载JDK11 链接:https://www.oracle.com/java/technologies/javase/j ......
Windows Hadoop Spark and

关于Hadoop集群无法正常关闭的问题

### 原生命令 正常情况我们是通过以下命令来停止和开启集群的 ```sh sbin/stop-all.sh sbin/start-all.sh ``` 但有时候不生效,通过ps还能查看到,但jps命令查看不到 ### 自定义停止命令 ```sh #!/bin/bash # 停止hadoop进程 h ......
集群 Hadoop 问题

Hadoop之YARN详解

### YARN的由来 从Hadoop2开始,官方把资源管理单独剥离出来,主要是为了考虑后期作为一个公共的资源管理平台,任何满足规则的计算引擎都可以在它上面执行。所以YARN可以实现HADOOP集群的资源共享,不仅仅可以跑MapRedcue,还可以跑Spark、Flink。 ### YARN架构分析 ......
Hadoop YARN

Hadoop - hadoop介绍

Hadoop是什么 Hadoop的发展历史 Hadoop的优势 Hadoop是什么 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决海量数据的存储和海量数据的分析计算问题。广义上讲,Hadoop通常是指一个更广泛的概念 —— Hadoop生态圈。 Hadoop的发展历史 L ......
Hadoop hadoop

Apache Spark 编程和优化

Assignment 2: Apache Spark Programming and OptimisationGroup Assignment (15%) 10/05/2023IntroductionThis is the second part of the practical assignmen ......
Apache Spark

hadoop3.x-ec

一、EC原理 二、常用命令与对应解释 1.查看当前支持的EC策略 hdfs ec -listPolicies 2023-05-30 10:10:43,251 WARN util.NativeCodeLoader: Unable to load native-hadoop library for yo ......
hadoop3 hadoop x-ec ec

Hadoop之MapReduce性能优化

现在大家已经掌握了MapReduce程序的开发步骤,注意了,针对MapReduce的案例我们并没有讲太多,主要是因为在实际工作中真正需要我们去写MapReduce代码的场景已经是凤毛麟角了,因为后面我们会学习一个大数据框架Hive,Hive支持SQL,这个Hive底层会把SQL转化为MapReduc ......
MapReduce 性能 Hadoop

Hadoop之MapReduce详解

### 前言 前面我们学习了Hadoop中的HDFS,HDFS主要是负责存储海量数据的,如果只是把数据存储起来,除了浪费磁盘空间,是没有任何意义的,我们把数据存储起来之后是希望能从这些海量数据中分析出来一些有价值的内容,这个时候就需要有一个比较厉害的计算框架,来快速计算这一批海量数据,所以MapRe ......
MapReduce Hadoop

hadoop安装使用

# hadoop相关介绍 ## 1.什么是hadoop? Hadoop是一个开源的分布式计算框架,它可以让我们在大规模集群中存储和处理海量数据。Hadoop基于Google的MapReduce和Google文件系统(GFS)的思想而设计。它的目标是能够在成百上千台普通计算机上并行处理大数据,提供高可 ......
hadoop

hadoop序列化相关问题

**什么时候需要使用序列化?** *需要在不同服务器传递内存数据时,用序列化。* **序列化后的所有属性需要再反序列化,那么有先后顺序反序列化吗?** *有的,比如序列化的属性有a b c* *则反序列化的属性必须是 ca b c* **数据切片一般为数据块的倍数,为什么?** *一般一个数据切片对 ......
序列 hadoop 问题

Spark入门看这篇就够了(万字长文)

本文已收录至Github,推荐阅读 👉 [Java随想录](https://github.com/ZhengShuHai/JavaRecord) 微信公众号:[Java随想录](https://mmbiz.qpic.cn/mmbiz_jpg/jC8rtGdWScMuzzTENRgicfnr91C5 ......
长文 Spark

Hadoop全分布部署

安装包下载(百度网盘)链接: https://pan.baidu.com/s/1XrnbpNNqcG20QG_hL4RJoQ?pwd=aec9 提取码: aec9 ## 基础配置(所有节点) ### 关闭防火墙,selinux安全子系统 ````bash #关闭防火墙,设置开机自动关闭 [root@ ......
Hadoop

centos7上Hadoop2.7.2完全分布式部署

1.规划 node1 node2 node3datanode datanode datanodenamenode resourcemanager secondarynamenodenodemanager nodemanager nodemanager 2.设置环境 2.1 修改hostname主机名 ......
分布式 centos7 Hadoop2 centos Hadoop

centos7.9上hadoop-2.7.2伪分布式部署

1.安装jdk 1.1 在Oracle官网上现在jdk1.8 ,然后上传到Linux服务器中 1.2 安装jdk rpm -ivh jdk-8u371-linux-x64.rpm 2 创建部署用户 hadoop useradd -d /hadoop hadoop echo 123 |passwd - ......
分布式 centos7 centos hadoop

本地spark通过spark集群连接hive

最近在学习spark,上周将spark集群搭建起来了,今天在idea中创建了一个测试程序读取hive库中的数据,程序很简单,但是踩到一些坑,卡了四五个小时,做个记录。 搭建Spark集群比较简单: 1、安装scala,scala版本要和spark使用的scala版本一致(因为这个问题卡了五六个小时) ......
spark 集群 hive