长文spark

Spark 3.5.0 独立部署(Standalone)模式

1.下载Spark 3.5.0 https://spark.apache.org/downloads.html 2.安装JDK Linux 安装Openjdk 3.安装Hadoop Hadoop-3.3.6分布式集群搭建步骤 4.解压 mkdir /usr/spark tar -zxvf spark ......
Standalone 模式 Spark

spark与scala版本对应查看

https://mvnrepository.com/artifact/org.apache.spark/spark-core ......
版本 spark scala

为什么Spark比MapReduce快?

1、内存和磁盘使用方面 Spark vs MapReduce不等于内存 vs 磁盘,Spark和MapReduce的计算都发生在内存中,区别在于: MapReduce需要将每次计算的结果写入磁盘,然后再从磁盘读取数据,从而导致了频繁的磁盘IO。 Spark通常不需要将计算的结果写入磁盘,可以在内存中 ......
MapReduce Spark

spark 3.0新特性

一、Adaptive Query Execution 自适应查询 https://blog.51cto.com/u_12865/7338853 二、Dynamic Partion Pruning 动态裁剪分区 Apache Spark 3.0 动态分区裁剪(Dynamic Partition Pru ......
特性 spark 3.0

详解Java编写并运行spark应用程序的方法WordCount_tyt2023

SparkContext:通往Spark集群的入口点,用于创建RDD和广播变量等 RDD:弹性分布式数据集,Spark应用程序的核心抽象 Transformation:操作RDD生成新的RDD,如map、filter等 Action:对RDD的操作,如count、collect等 环境:Spark ......

Spark 开发与应用_tyt2023

本实验基于MRS环境,主要介绍如何利用Spark RDD的常用算子进行简单统计分析,以及如何利用SparkSQL进行结构化批处理。 购买弹性公网IP 购买MRS集群 选择“自定义购买” 区域:华北—北京四 计费模式:按需计费 集群名称:mrs-bigdata 版本类型:普通版 集群版本:MRS 3. ......
Spark 2023 tyt

Spark写hive insertInto和saveAsTable的差别和错误

insertInto必须保证源表字段顺序和hive表字段顺序一致,不然会插入乱序,如果字段数不一致,会报错 saveAsTable append模式下,如果字段数不一致,会报错,overwrite模式下,会重建表 如果是外部表,已经存在了数据,saveAsTable会报错 org.apache.sp ......
saveAsTable insertInto 差别 错误 Spark

Hago 的 Spark on ACK 实践

长期以来,Hago 都是在 IDC 里运行大数据任务,以支撑上面的许多产品,从 2022 年开始,Hago 开始将大数据业务迁移上云,并以 Spark on ACK 的形式来运行,本文主要针对迁移过程进行介绍。 ......
Spark Hago ACK on

Spark常用Sql

一、日期处理 1、查询当前日期 SELECT current_date() 2023-12-22 2、查询当前时间戳 select current_timestamp() 2023-12-22 14:50:19.213 3、查询当前时间戳-1小时 select current_timestamp() ......
常用 Spark Sql

Hive和Spark生产集群搭建

1.环境准备 1.1 版本选择 序号 bigdata-001 bigdata-002 bigdata-003 bigdata-004 bigdata-005 MySQL-8.0.31 mysql Datax Datax Datax Datax Datax Datax Spark-3.3.1 Spar ......
集群 Spark Hive

万字长文全面详解现代C++智能指针:原理、应用和陷阱

现代C++智能指针详解:原理、应用和陷阱 智能指针是C++11引入的新特性。本篇文章详细介绍了C++智能指针的原理、应用与陷阱,通过丰富的代码实例介绍了三种智能指针:std::unique_ptr、std::shared_ptr和std::weak_ptr的原理、使用方法和适用场景,还介绍了智能指针 ......
长文 指针 陷阱 原理 智能

安装spark启动及遇到的问题

参考博主:Ubuntu下安装Spark3.2.0教程_ubuntu火狐浏览器怎么下载spark-CSDN博客 在这个博主的内容中安装spark,要注意滴是: 这里同时修改了spark-evn.sh的文件名称记得修改,然后下面 运行的时候我啥结果也没有,后面直接不管了打算执行命令:spark-shel ......
问题 spark

[spark] coalesce() 和 repartition()的区别

coalesce(1) 的主要作用是将数据合并到尽可能少的分区中,而 repartition(1) 则是将数据随机重分区为一个分区。这使得 coalesce(1) 相对而言更加高效,因为它减少了数据移动的次数,只需要在当前 Executor 上将所有分区的数据都收集到当前应用程序的单个 Execut ......
repartition coalesce spark

万字长文专访“AI之父”Geoffrey Hinton: 我使用ChatGPT之后,为什么也开始害怕现在AI技术?

“蜻蜓的幼虫就像水下的怪兽,”Hinton 说。“它就像电影《异形》中的场景,蜻蜓从这个怪兽的背部破壳而出。幼虫经历了一个变成汤的阶段,然后蜻蜓就从这种汤中诞生。”在他的比喻中,幼虫象征着用于训练现代神经网络的数据;而蜻蜓则代表了由此诞生的敏捷的人工智能。深度学习——Hinton 所推动的技术——促 ......
长文 Geoffrey ChatGPT Hinton 技术

Iceberg Spark存储过程-表治理工具

一、简介 存储过程(Procedure)是数据库领域的概念,类似于编程语言中的方法或函数,是对实现特定操作的封装,原生的 Spark SQL 中是不支持存储过程的,Iceberg 0.11.0版本之后对其进行了扩展,并提供了部分存储过程的实现。Iceberg 中提供的所有存储过程都在system n ......
过程 Iceberg 工具 Spark

spark-sql查询Iceberg时处理流程

1、查询表结构 show create table data_lake_ods.test CREATE TABLE spark_catalog.data_lake_ods.test ( `user_number` BIGINT NOT NULL, `subclazz_number` BIGINT N ......
spark-sql 流程 Iceberg spark sql

分布式协同(万字长文)

分布式协同 分布式协同,也叫分布式协调,是在计算机网络中,不同的硬件或软件组件完成各自的任务,然后通过协同工作来解决问题。 在分布式系统中,不同的节点需要进行信息的交换,以达到一致的状态。这个过程就需要分布式协调。例如,我们要保证在分布式系统中的所有节点上的数据是最新的,就需要用到分布式协调。 分布 ......
长文 分布式

防御式CSS—长文本省略

这是一份名单,现在看起来很完美。 然而,由于这是用户生成的内容,我们需要小心如何保护布局,以防内容过长。 如下图所示: 在这种布局中,一致性很重要。为了实现这一点,我们可以简单地使用text-overflow及其朋友来截断名称。 .username { white-space: nowrap; ov ......
长文 CSS

spark提交文件支持路径类型

spark-submit 提交文件支持的路径类型 类似以下参数 --files --jars --archives --conf spark.yarn.jars --conf spark.yarn.archive --conf spark.yarn.dist.archives --conf spar ......
路径 类型 文件 spark

spark提交参数 [spark.yarn.dist.jars] 和 [spark.yarn.jars ]区别

spark.yarn.dist.jars 作用 用于指定分发到集群节点上的 JAR 包的路径。 工作原理 Spark 应用程序的执行器会将这些 JAR 包分发到它们的本地文件系统上。这样,应用程序可以在执行期间访问这些 JAR 包。 使用场景 适用于应用程序的依赖项,这些依赖项不需要在整个集群中共享 ......
spark jars yarn 参数 dist

(万字长文)手把手教你认识学会LangChain

什么LangChain LangChain:一个让你的LLM变得更强大的开源框架 LangChain六大主要领域 管理和优化prompt。不同的任务使用不同prompt,如何去管理和优化这些prompt是langchain的主要功能之一。 链,初步理解为一个具体任务中不同子任务之间的一个调用。 数据 ......
长文 LangChain

spark离线分析--本地Spark1.6版本读写hive表

1. 搭建好hive环境,并将hive-site.xml文件放到本地工程的resources目录下 2. java测试代码 public class SparkHiveTest{ public static void main(String[] args){ JavaSparkContext jav ......
版本 Spark1 spark Spark hive

【打怪升级】【万字长文】聊聊并发编程(前言)

在之前无意中看到有群友关于:业务中尽量不要使用并发编程和线程池一文中,引发了几点思考:对于不熟悉并发编程的开发者,引入并发设计确实会导致意想不到的问题出现,增加了维护难度和周期;但是现实在某些设计场景中,我们无法避免这种设计,并发带来的好处显而易见。 今年再重温了几遍并发设计后,我想把现有的知识点总 ......
长文 前言

spark的shuffle和mapreduce的shuffle的区别

功能上,MR的shuffle和Spark的shuffle是没啥区别的,都是对Map端的数据进行分区,要么聚合排序,要么不聚合排序,然后Reduce端或者下一个调度阶段进行拉取数据,完成map端到reduce端的数据传输功能。 方案上,有很大的区别,MR的shuffle是基于合并排序的思想,在数据进入 ......
shuffle mapreduce spark

spark的excutor是动态的资源分配吗,还是写死的?

在Apache Spark中,Executor的资源分配可以是动态的,而不是写死的。Apache Spark提供了一种称为动态资源分配(Dynamic Allocation)的机制,允许根据应用程序的实际需求动态调整Executor的数量。 动态资源分配的主要思想是根据当前应用程序的工作负载来增加或 ......
资源分配 excutor 还是 动态 资源

万字长文:从 C# 入门学会 RabbitMQ 消息队列编程

RabbitMQ 教程 目录 RabbitMQ 教程 RabbitMQ 简介 安装与配置 安装 RabbitMQ 发布与订阅模型 生产者、消费者、交换器、队列 多工作队列 交换器类型 Direct Fanout Topic 交换器绑定交换器 消费者、消息属性 Qos 、拒绝接收 消息确认模式 消息持 ......
长文 队列 RabbitMQ 消息

AcWing 算法基础课week 1 总结(万字长文)

AcWing 算法基础课week 1 总结 总结点 1:快速排序(分治思想) 题1:从小到大排序 主体思路:定义一个数x属于数组s,利用双指针,将数组分为大于等于x和小于等于x的两部分,然后递归处理。(具体步骤如下) 1. 如上图所示,我们定义一个数组s用来储存n个数据,然后定义两个指针i j,分别 ......
长文 基础课 算法 基础 AcWing

Apache Spark 认证绕过漏洞(CVE-2020-9480)研究

一、Apache Spark简介 Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。项目是用Scala进行编写。 目前,Spark生态系统已经发展成为一个 ......
漏洞 Apache Spark 2020 9480

Spark SQL快速入门

Spark SQL快速入门 1、概述 spark SQL是Apache用于处理结构化数据的模块。其中包含SQL、DataFrame API、DataSet API,意味着开发人员可以在不同的API之间来回切换,从而使数据处理更加灵活。 Spark SQL(Spark on hive) 数据兼容方面S ......
Spark SQL

Spark Streaming快速入门

Spark Streaming快速入门 一、简介 Spark Streaming 是构建在 Spark Core 基础之上的流处理框架(但实际上是微批次处理框架),是 Spark 非常重要的组成部分。严格意义上来讲,Spark Streaming 是一个准实时,微批次的流处理框架。 特点:Easy ......
Streaming Spark