长文spark

Spark 3.5.0 独立部署(Standalone)模式

1.下载Spark 3.5.0 https://spark.apache.org/downloads.html 2.安装JDK Linux 安装Openjdk 3.安装Hadoop Hadoop-3.3.6分布式集群搭建步骤 4.解压 mkdir /usr/spark tar -zxvf spark ......

Standalone 模式 Spark更新时间 2023-12-31

spark与scala版本对应查看

https://mvnrepository.com/artifact/org.apache.spark/spark-core ......

版本 spark scala更新时间 2023-12-31

为什么Spark比MapReduce快？

1、内存和磁盘使用方面 Spark vs MapReduce不等于内存 vs 磁盘，Spark和MapReduce的计算都发生在内存中，区别在于： MapReduce需要将每次计算的结果写入磁盘，然后再从磁盘读取数据，从而导致了频繁的磁盘IO。 Spark通常不需要将计算的结果写入磁盘，可以在内存中 ......

MapReduce Spark更新时间 2023-12-30

spark 3.0新特性

一、Adaptive Query Execution 自适应查询 https://blog.51cto.com/u_12865/7338853 二、Dynamic Partion Pruning 动态裁剪分区 Apache Spark 3.0 动态分区裁剪（Dynamic Partition Pru ......

特性 spark 3.0更新时间 2023-12-28

详解Java编写并运行spark应用程序的方法WordCount_tyt2023

SparkContext：通往Spark集群的入口点，用于创建RDD和广播变量等 RDD：弹性分布式数据集，Spark应用程序的核心抽象 Transformation：操作RDD生成新的RDD，如map、filter等 Action：对RDD的操作，如count、collect等环境：Spark ......

WordCount_tyt 应用程序 WordCount 程序方法更新时间 2023-12-28

Spark 开发与应用_tyt2023

本实验基于MRS环境，主要介绍如何利用Spark RDD的常用算子进行简单统计分析，以及如何利用SparkSQL进行结构化批处理。购买弹性公网IP 购买MRS集群选择“自定义购买” 区域：华北—北京四计费模式：按需计费集群名称：mrs-bigdata 版本类型：普通版集群版本：MRS 3. ......

Spark 2023 tyt更新时间 2023-12-27

Spark写hive insertInto和saveAsTable的差别和错误

insertInto必须保证源表字段顺序和hive表字段顺序一致，不然会插入乱序，如果字段数不一致，会报错 saveAsTable append模式下，如果字段数不一致，会报错，overwrite模式下，会重建表如果是外部表，已经存在了数据，saveAsTable会报错 org.apache.sp ......

saveAsTable insertInto 差别错误 Spark更新时间 2023-12-23

Hago 的 Spark on ACK 实践

长期以来，Hago 都是在 IDC 里运行大数据任务，以支撑上面的许多产品，从 2022 年开始，Hago 开始将大数据业务迁移上云，并以 Spark on ACK 的形式来运行，本文主要针对迁移过程进行介绍。 ......

Spark Hago ACK on更新时间 2023-12-23

Spark常用Sql

一、日期处理 1、查询当前日期 SELECT current_date() 2023-12-22 2、查询当前时间戳 select current_timestamp() 2023-12-22 14:50:19.213 3、查询当前时间戳-1小时 select current_timestamp() ......

常用 Spark Sql更新时间 2023-12-22

Hive和Spark生产集群搭建

1.环境准备 1.1 版本选择序号 bigdata-001 bigdata-002 bigdata-003 bigdata-004 bigdata-005 MySQL-8.0.31 mysql Datax Datax Datax Datax Datax Datax Spark-3.3.1 Spar ......

集群 Spark Hive更新时间 2023-12-21

万字长文全面详解现代C++智能指针：原理、应用和陷阱

现代C++智能指针详解：原理、应用和陷阱智能指针是C++11引入的新特性。本篇文章详细介绍了C++智能指针的原理、应用与陷阱，通过丰富的代码实例介绍了三种智能指针：std::unique_ptr、std::shared_ptr和std::weak_ptr的原理、使用方法和适用场景，还介绍了智能指针 ......

长文指针陷阱原理智能更新时间 2023-12-18

安装spark启动及遇到的问题

参考博主：Ubuntu下安装Spark3.2.0教程_ubuntu火狐浏览器怎么下载spark-CSDN博客在这个博主的内容中安装spark，要注意滴是：这里同时修改了spark-evn.sh的文件名称记得修改，然后下面运行的时候我啥结果也没有，后面直接不管了打算执行命令：spark-shel ......

问题 spark更新时间 2023-12-18

[spark] coalesce() 和 repartition()的区别

coalesce(1) 的主要作用是将数据合并到尽可能少的分区中，而 repartition(1) 则是将数据随机重分区为一个分区。这使得 coalesce(1) 相对而言更加高效，因为它减少了数据移动的次数，只需要在当前 Executor 上将所有分区的数据都收集到当前应用程序的单个 Execut ......

repartition coalesce spark更新时间 2023-12-13

万字长文专访“AI之父”Geoffrey Hinton：我使用ChatGPT之后，为什么也开始害怕现在AI技术？

“蜻蜓的幼虫就像水下的怪兽，”Hinton 说。“它就像电影《异形》中的场景，蜻蜓从这个怪兽的背部破壳而出。幼虫经历了一个变成汤的阶段，然后蜻蜓就从这种汤中诞生。”在他的比喻中，幼虫象征着用于训练现代神经网络的数据；而蜻蜓则代表了由此诞生的敏捷的人工智能。深度学习——Hinton 所推动的技术——促 ......

长文 Geoffrey ChatGPT Hinton 技术更新时间 2023-12-11

Iceberg Spark存储过程-表治理工具

一、简介存储过程（Procedure）是数据库领域的概念，类似于编程语言中的方法或函数，是对实现特定操作的封装，原生的 Spark SQL 中是不支持存储过程的，Iceberg 0.11.0版本之后对其进行了扩展，并提供了部分存储过程的实现。Iceberg 中提供的所有存储过程都在system n ......

过程 Iceberg 工具 Spark更新时间 2023-12-08

spark-sql查询Iceberg时处理流程

1、查询表结构 show create table data_lake_ods.test CREATE TABLE spark_catalog.data_lake_ods.test ( `user_number` BIGINT NOT NULL, `subclazz_number` BIGINT N ......

spark-sql 流程 Iceberg spark sql更新时间 2023-12-05

分布式协同（万字长文）

分布式协同分布式协同，也叫分布式协调，是在计算机网络中，不同的硬件或软件组件完成各自的任务，然后通过协同工作来解决问题。在分布式系统中，不同的节点需要进行信息的交换，以达到一致的状态。这个过程就需要分布式协调。例如，我们要保证在分布式系统中的所有节点上的数据是最新的，就需要用到分布式协调。分布 ......

长文分布式更新时间 2023-12-04

防御式CSS—长文本省略

这是一份名单，现在看起来很完美。然而，由于这是用户生成的内容，我们需要小心如何保护布局，以防内容过长。如下图所示：在这种布局中，一致性很重要。为了实现这一点，我们可以简单地使用text-overflow及其朋友来截断名称。 .username { white-space: nowrap; ov ......

长文 CSS更新时间 2023-12-03

spark提交文件支持路径类型

spark-submit 提交文件支持的路径类型类似以下参数 --files --jars --archives --conf spark.yarn.jars --conf spark.yarn.archive --conf spark.yarn.dist.archives --conf spar ......

路径类型文件 spark更新时间 2023-11-30

spark提交参数 [spark.yarn.dist.jars] 和 [spark.yarn.jars ]区别

spark.yarn.dist.jars 作用用于指定分发到集群节点上的 JAR 包的路径。工作原理 Spark 应用程序的执行器会将这些 JAR 包分发到它们的本地文件系统上。这样，应用程序可以在执行期间访问这些 JAR 包。使用场景适用于应用程序的依赖项，这些依赖项不需要在整个集群中共享 ......

spark jars yarn 参数 dist更新时间 2023-11-30

（万字长文）手把手教你认识学会LangChain

什么LangChain LangChain:一个让你的LLM变得更强大的开源框架 LangChain六大主要领域管理和优化prompt。不同的任务使用不同prompt，如何去管理和优化这些prompt是langchain的主要功能之一。链，初步理解为一个具体任务中不同子任务之间的一个调用。数据 ......

长文 LangChain更新时间 2023-11-29

spark离线分析--本地Spark1.6版本读写hive表

1. 搭建好hive环境，并将hive-site.xml文件放到本地工程的resources目录下 2. java测试代码 public class SparkHiveTest{ public static void main(String[] args){ JavaSparkContext jav ......

版本 Spark1 spark Spark hive更新时间 2023-11-28

【打怪升级】【万字长文】聊聊并发编程（前言）

在之前无意中看到有群友关于：业务中尽量不要使用并发编程和线程池一文中，引发了几点思考：对于不熟悉并发编程的开发者，引入并发设计确实会导致意想不到的问题出现，增加了维护难度和周期；但是现实在某些设计场景中，我们无法避免这种设计，并发带来的好处显而易见。今年再重温了几遍并发设计后，我想把现有的知识点总 ......

长文前言更新时间 2023-11-27

spark的shuffle和mapreduce的shuffle的区别

功能上，MR的shuffle和Spark的shuffle是没啥区别的，都是对Map端的数据进行分区，要么聚合排序，要么不聚合排序，然后Reduce端或者下一个调度阶段进行拉取数据，完成map端到reduce端的数据传输功能。方案上，有很大的区别，MR的shuffle是基于合并排序的思想，在数据进入 ......

shuffle mapreduce spark更新时间 2023-11-26

spark的excutor是动态的资源分配吗，还是写死的？

在Apache Spark中，Executor的资源分配可以是动态的，而不是写死的。Apache Spark提供了一种称为动态资源分配（Dynamic Allocation）的机制，允许根据应用程序的实际需求动态调整Executor的数量。动态资源分配的主要思想是根据当前应用程序的工作负载来增加或 ......

资源分配 excutor 还是动态资源更新时间 2023-11-26

万字长文：从 C# 入门学会 RabbitMQ 消息队列编程

RabbitMQ 教程目录 RabbitMQ 教程 RabbitMQ 简介安装与配置安装 RabbitMQ 发布与订阅模型生产者、消费者、交换器、队列多工作队列交换器类型 Direct Fanout Topic 交换器绑定交换器消费者、消息属性 Qos 、拒绝接收消息确认模式消息持 ......

长文队列 RabbitMQ 消息更新时间 2023-11-24

AcWing 算法基础课week 1 总结(万字长文)

AcWing 算法基础课week 1 总结总结点 1：快速排序（分治思想）题1：从小到大排序主体思路：定义一个数x属于数组s，利用双指针，将数组分为大于等于x和小于等于x的两部分，然后递归处理。（具体步骤如下） 1. 如上图所示，我们定义一个数组s用来储存n个数据，然后定义两个指针i j,分别 ......

长文基础课算法基础 AcWing更新时间 2023-11-21

Apache Spark 认证绕过漏洞（CVE-2020-9480）研究

一、Apache Spark简介 Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache顶级项目。项目是用Scala进行编写。目前，Spark生态系统已经发展成为一个 ......

漏洞 Apache Spark 2020 9480更新时间 2023-11-21

Spark SQL快速入门

Spark SQL快速入门 1、概述 spark SQL是Apache用于处理结构化数据的模块。其中包含SQL、DataFrame API、DataSet API，意味着开发人员可以在不同的API之间来回切换，从而使数据处理更加灵活。 Spark SQL(Spark on hive) 数据兼容方面S ......

Spark SQL更新时间 2023-11-20

Spark Streaming快速入门

Spark Streaming快速入门一、简介 Spark Streaming 是构建在 Spark Core 基础之上的流处理框架（但实际上是微批次处理框架），是 Spark 非常重要的组成部分。严格意义上来讲，Spark Streaming 是一个准实时，微批次的流处理框架。特点：Easy ......

Streaming Spark更新时间 2023-11-20

共264篇 :2/9页 首页上一页12345下一页尾页