spark3 spark 3.2

Spark持久化

众所周知,RDD只会保留血缘关系,不存储计算结果。如果想要让计算结果持久化存储,那就要引入cache和persist方法。 提前感受变化 禁用持久化 package com.pzb.rdd.persist import org.apache.spark.rdd.RDD import org.apac ......
Spark

Spark算子总结

Spark的算子分为两大类:transform(转换算子)和action(行动算子) transform算子:map、mapPartitions、mapPartitionsWithIndex、flatMap、glom、groupBy、filter、sample、distinct、coalesce、r ......
算子 Spark

CentOS7.9下KubeKey安装Kubesphere3.3.2

建议准备一台 8 核 CPU 和 16 GB 内存 干净的CentOS7.9,内核由升级至5.4.+ 第一步禁用防火墙: systemctl disable firewalld --now 第二步配置可用的DNS: #先用以下命令找到网卡名,例如我的是 ens32 ifconfig #然后用以下命令 ......

解决Spark读取tmp结尾的文件报错的问题

业务场景 flume采集文件到hdfs中,在采集中的文件会添加.tmp后缀。一个批次完成提交后,会将.tmp后缀重名名,将tmp去掉。 所以,当Spark程序读取到该hive外部表映射的路径时,在出现找不到xxx.tmp文件的问题出现。 解决思路: Hdfs提供了读取文件筛选的接口PathFilte ......
文件 问题 Spark tmp

Spark高级

Spark 宽依赖和窄依赖 窄依赖(Narrow Dependency): 指父RDD的每个分区只被 子RDD的一个分区所使用, 例如map、 filter等 宽依赖(Shuffle Dependency): 父RDD的每个分区都可能被 子RDD的多个分区使用, 例如groupByKey、 redu ......
Spark

未来已来,OpenHarmony 3.2 Release发布,迈入发展新阶段

2023年4月9日,在社区开发者的期盼中,在春风送暖万物更新的季节里,我们迎来了OpenAtom OpenHarmony(以下简称“OpenHarmony”)3.2 Release新版本的发布。 ......
OpenHarmony 阶段 Release 3.2

Java语言在Spark3.2.4集群中使用Spark MLlib库完成XGboost算法

一、概述 XGBoost是一种基于决策树的集成学习算法,它在处理结构化数据方面表现优异。相比其他算法,XGBoost能够处理大量特征和样本,并且支持通过正则化控制模型的复杂度。XGBoost也可以自动进行特征选择并对缺失值进行处理。 二、代码实现步骤 1、导入相关库 import org.apach ......
Spark 集群 算法 XGboost 语言

Java语言在Spark3.2.4集群中使用Spark MLlib库完成朴素贝叶斯分类器

一、贝叶斯定理 贝叶斯定理是关于随机事件A和B的条件概率,生活中,我们可能很容易知道P(A|B),但是我需要求解P(B|A),学习了贝叶斯定理,就可以解决这类问题,计算公式如下: P(A)是A的先验概率 P(B)是B的先验概率 P(A|B)是A的后验概率(已经知道B发生过了) P(B|A)是B的后验 ......
Spark 集群 语言 Spark3 MLlib

分布式计算技术(上):经典计算框架MapReduce、Spark 解析

当一个计算任务过于复杂不能被一台服务器独立完成的时候,我们就需要分布式计算。分布式计算技术将一个大型任务切分为多个更小的任务,用多台计算机通过网络组装起来后,将每个小任务交给一些服务器来独立完成,最终完成这个复杂的计算任务。本篇我们介绍两个经典的计算框架MapReduce和Spark。 — MapR ......
分布式 MapReduce 框架 经典 Spark

spark 的几个简单实例

最近写了几个简单的spark structured streaming 的代码实例。 目的是熟悉spark 开发环境搭建, spark 代码开发流程。 开发环境: 系统:win 11 java : 1.8 scala:2.13 工具:idea 2022.2 ,maven 3, git 2.37 sp ......
实例 spark

Spark on Yarn配置

1、Spark on Yarn配置 1.)在搭建好的Spark上修改spark-env.sh文件: # vim $SPARK_HOME/conf/spark-env.sh 添加以下配置: export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop export ......
Spark Yarn on

Spark学习笔记01

1、spark程序开发完成后,打包成jar包。 如何将jar包分发到 spark集群?1、启动集群 启动master ./sbin/start-master.sh 启动worker ./bin/spark-class org.apache.spark.deploy.worker.worker spa ......
笔记 Spark

Hadoop、Hive和Spark的关系

大数据技术生态中,Hadoop、Hive、Spark是什么关系?| 通俗易懂科普向 Hadoop、Hive和Spark,都是大数据相关的系统和技术。 大数据也是数据管理系统的范畴。数据管理系统涉及两个方面的问题,一个是数据怎么存储?一个是数据怎么计算? 为了方便理解,我们需要从单机的时代来讲解。 在 ......
Hadoop Spark Hive

大数据经典论文解读 - Spark

Spark Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing 可看作一个支持多轮迭代的MapReduce模型,但是引入了 RDD 这样的函数式对象的数据集概念。Sp ......
经典 数据 论文 Spark

SecureCRT mac(好用的终端SSH仿真工具)v9.3.2正式激活版

securecrt mac版是专门为苹果Mac 用户设计的终端仿真程序,SecureCRT下载为组织中的每个人提供安全的远程访问,文件传输和数据隧道。可以为计算机专业人员提供坚实的终端仿真,通过高级会话管理提高工作效率,并采用多种方式节省时间并简化重复任务。通过这款软件可以让SFTP 的文件传输更安 ......
活版 终端 SecureCRT 工具 SSH

A7--Spark部署

一、版本信息 JDK 1.8 spark 3.2.1 二、安装部署 1)上传解压缩文件 tar -zxvf spark-3.2.1-bin-hadoop3.2.tgz 2)配置环境变量 vim /etc/profile # Spark export SPARK_HOME=/opt/spark-3.2 ......
Spark A7

开发板如何适配OpenHarmony 3.2

本文介绍诚迈科技基于RK3568设计的HCPAD-100开发板以及基于RK3566设计的中控屏HongzPad2022在OpenHarmony 3.2 Beta5版本上的适配过程。 ......
OpenHarmony 3.2

Hive 和 Spark 分区策略剖析

随着技术的不断的发展,大数据领域对于海量数据的存储和处理的技术框架越来越多。在离线数据处理生态系统最具代表性的分布式处理引擎当属Hive和Spark,它们在分区策略方面有着一些相似之处,但也存在一些不同之处。 ......
策略 Spark Hive

idea中spark安装

Idea中spark的安装配置 下载Scala插件后新建scala项目 更改scala的SDK(下载的版本)和jdk并且更改工作空间 导入spark相关的架包找到安装路径导入jars或者lib(找到Libraries添加ScalaSDK和java) 设置maven全局的参数(导入maven的安装路径 ......
spark idea

Spark源码解析(二):Spark闭包检查

一、理解 Scala 闭包:Closures 1.1 闭包的定义 闭包就是一个函数和与其相关的引用环境组合的一个整体(实体)。进一步说,闭包是绑定了自由变量的函数实例。 通常来讲,闭包的实现机制是定义一个特殊的数据结构,保存了函数地址指针与闭包创建时的函数的词法环境以及绑定自由变量。 对于闭包最好的 ......
闭包 Spark 源码

Spark源码解析(一):RDD之Transfrom算子

一、延迟计算 RDD 代表的是分布式数据形态,因此,RDD 到 RDD 之间的转换,本质上是数据形态上的转换(Transformations) 在 RDD 的编程模型中,一共有两种算子,Transformations 类算子和 Actions 类算子。开发者需要使用 Transformations ......
算子 Transfrom 源码 Spark RDD

常用spark优化参数

常用spark优化参数 强制使用spark engine set tqs.query.engine.type = sparkCli; set spark.yarn.priority = 4; 双写HDFS开启: set spark.shuffle.hdfs.enable=true; set spar ......
常用 参数 spark

docker 搭建大数据集群(hive、hbase、ZooKeeper、Scala、Spark)

1)本机系统设置 电脑设置虚拟缓存(设置为自动管理) 虚拟机设置内存和CPU 内存设置为8G(或以上) CPU稍微设置高一点(三个虚拟化能开就开) 虚拟机系统配置阿里源 wget -O /etc/yum.repos.d/CentOS-Base.repo https://mirrors.aliyun. ......
集群 ZooKeeper 数据 docker Scala

Spark任务调试(Scala开发语言)

// 将dataframe存储到hdfs myDF.write.orc("hdfs://nsxxxx/user/admin/dir") // 读取操作 val mdf = spark.read.orc("hdfs://nsxxxx/user/admin/dir") ......
任务 语言 Spark Scala

Spark入门到精通

一、Spark简介 1. 概念 Apache Spark 是一个开源的分布式计算系统,最初由加州大学伯克利分校的AMPLab(Algorithms, Machines, and People Lab)开发,并于2010年加入Apache基金会进行开源。Spark 提供了一种统一的数据处理引擎,支持在 ......
Spark

大数据之—Spark环境搭建

前言 参考:https://blog.csdn.net/wzb1983/article/details/125761231 官网:http://spark.apache.org/downloads.html 软件仓库:https://archive.apache.org/dist/spark/ 软件 ......
环境 数据 Spark

一次spark任务提交参数的优化

起因 新接触一个spark集群,明明集群资源(core,内存)还有剩余,但是提交的任务却申请不到资源。 分析 环境 spark 2.2.0 基于yarn集群 参数 spark任务提交参数中最重要的几个: spark-submit --master yarn --driver-cores 1 --dr ......
参数 任务 spark

《关于我因为flink成为spark源码贡献者这件小事》

各位读者老爷请放下手上的板砖,我可真没有标题党,且容老弟慢慢道来。 spark和flink本身相信我不用做过多的介绍,后端同学不管搞没搞过大数据,应该都多多少少听过。 如果没听过,简单说,spark和flink之于大数据,就好比vue和react之于前端,就好比spring家族之于java。 从20 ......
贡献者 源码 小事 贡献 flink

微软外服札记④——Spark中的那些坑...

Spark中的那些坑 Spark中的那些坑 前言 读取配置文件 时区陷阱 怪异的DayOfWeek substring陷阱 IP地址解析 枚举的数值 posexplode函数 为什么我的程序运行那么慢?慎用Count()和Show() 为什么我的程序运行那么慢?(2)优化、优化 其它 题外话 前言 ......
札记 Spark