小记spark

spark调用HTTP请求并返回数据落地到数仓(or数据库)

POM xml复制代码 com.alibaba fastjson spark-sql依赖 --> org.apache.spark spark-sql_${scala.tools.version} org.apache.spark spark-hive_${scala.tools.version} ......
数据 数据库 spark HTTP

RDS 、HDFS、 mapreduce 、spark 、hive、 hbase 、zookeeper 、kafka 、flume、mysql 安装时之间配置文件是如何依赖的?

这些技术是大数据领域的常用组件,它们之间的配置文件依赖关系如下: RDS是一种关系型数据库,可以独立安装和使用,不需要依赖其他组件。 HDFS是Hadoop分布式文件系统,通常与MapReduce一起使用。在Hadoop集群中,HDFS需要配置core-site.xml和hdfs-site.xml两 ......
mapreduce zookeeper 之间 文件 hbase

Spark消费Kafka

0. 前言 之前先写了处理数据的spark,用文件读写测了一批数据,能跑出结果;今天调通了Kafka,拼在一起,没有半点输出,查了半天,发现是之前的处理部分出了问题,把一个不等号打成了等号,把数据全filter没了。很恐怖,我保证这段时间我没动过这段代码,但上次真的跑出东西了啊(尖叫 1. 配置流程 ......
Spark Kafka

Spark搭建

# Spark搭建 ## Local模式 > 主要用于本地开发测试 > > 本文档主要介绍如何在IDEA中配置Spark开发环境 * 打开IDEA,创建Maven项目 * 在IDEA设置中安装Scala插件 ![img](https://img2023.cnblogs.com/blog/286504 ......
Spark

Spark集成Hive

### 命令行集成Hive 将hive中的`hive-site.xml`配置文件拷贝到spark配置文件目录下,仅需要以下内容 ```xml hive.metastore.warehouse.dir /user/hive/warehouse javax.jdo.option.ConnectionUR ......
Spark Hive

Spark3.x扩展内容

### 3.0.0主要的新特性: 1. 在TPC-DS基准测试中,通过启用自适应查询执行、动态分区裁剪等其他优化措施,相比于Spark 2.4,性能提升了2倍 2. 兼容ANSI SQL 3. 对pandas API的重大改进,包括python类型hints及其他的pandas UDFs 4. 简化 ......
内容 Spark3 Spark

设计模式小记

创建型模式(Creational Patterns): 工厂模式(Factory Pattern):通过工厂方法创建对象,隐藏具体实现细节,例如创建不同类型的按钮。 // 简单工厂模式 class ButtonFactory { createButton(type) { switch (type) ......
设计模式 小记 模式

go-shadowsw问题小记

Golang shadows是指在Go语言中,一个变量在内部作用域中被另一个同名同类型的变量声明而隐藏的情况。这种情况可能导致一些意想不到的结果,比如返回错误的值或者引用错误的变量。 func BadRead(f *os.File, buf []byte) err error { for { n, ......
小记 go-shadowsw shadowsw 问题 go

为什么使用Flink替代Spark?

一,Flink是真正的流处理,延迟在毫秒级,Spark Streaming是微批,延迟在秒级。 二,Flink可以处理事件时间,而Spark Streaming只能处理机器时间,无法保证时间语义的正确性。 三,Flink的检查点算法比Spark Streaming更加灵活,性能更高。Spark St ......
Flink Spark

Spark性能优化

### 性能优化分析 一个计算任务的执行主要依赖于CPU、内存、带宽 Spark是一个基于内存的计算引擎,所以对它来说,影响最大的可能就是内存,一般我们的任务遇到了性能瓶颈大概率都是内存的问题,当然了CPU和带宽也可能会影响程序的性能,这个情况也不是没有的,只是比较少。 Spark性能优化,其实主要 ......
性能 Spark

Spark扩展内容

### 宽依赖和窄依赖 - 窄依赖(Narrow Dependency):指父RDD的每个分区只被子RDD的一个分区所使用,例如map、filter等这些算子 一个RDD,对它的父RDD只有简单的一对一的关系,也就是说,RDD的每个partition仅仅依赖于父RDD中的一个partition,父R ......
内容 Spark

Spark之RDD相关

### 创建RDD RDD是Spark编程的核心,在进行Spark编程时,首要任务是创建一个初始的RDD,这样就相当于设置了Spark应用程序的输入源数据 然后在创建了初始的RDD之后,才可以通过Spark 提供的一些高阶函数,对这个RDD进行操作,来获取其它的RDD Spark提供三种创建RDD方 ......
Spark RDD

Spark实战

### WordCount程序 这个需求就是类似于我们在学习MapReduce的时候写的案例 需求这样的:读取文件中的所有内容,计算每个单词出现的次数 注意:由于Spark支持Java、Scala这些语言,目前在企业中大部分公司都是使用Scala语言进行开发,个别公司会使用java进行开发,为了加深 ......
实战 Spark

Spark详解

### 什么是Spark Spark是一个用于大规模数据处理的统一计算引擎 注意:Spark不仅仅可以做类似于MapReduce的离线数据计算,还可以做实时数据计算,并且它还可以实现类似于Hive的SQL计算,等等,所以说它是一个统一的计算引擎 既然说到了Spark,那就不得不提一下Spark里面最 ......
Spark

Vue3 尝试小记

### 1.安装vue 使用 npm 或 yarn 安装 Vue 3: ```javascript # npm npm install vue@next # yarn yarn add vue@next ``` ### 2.创建项目文件夹 在命令行中,输入以下命令,在根目录下创建一个项目文件夹: m ......
小记 Vue3 Vue

spark 常用参数和默认配置

##常用的Spark任务参数及其作用: 1. `spark.driver.memory`:设置driver进程使用的内存大小,默认为1g。 2. `spark.executor.memory`:设置每个executor进程使用的内存大小,默认为1g。 3. `spark.executor.cores ......
常用 参数 spark

【博学谷学习记录】超强总结,用心分享 | spark知识点总结2

【博学谷IT技术支持】 #### Action动作算子 * reduce: 通过func函数聚集RDD中的所有元素,这个功能必须是可交换且可并联的 * collect: 在驱动程序中,以数组的形式返回数据集的所有元素 * count: 返回RDD的元素个数 * first: 返回RDD的第一个元素( ......
知识点 知识 spark

Windows 配置 Hadoop and Spark

一 JDK环境配置 由于项目用的JDK17,所以单独给Hadoop配了JDK11,建议直接配置JAVA_HOME环境变量为JDK11,因为后面Spark需要用到JAVA_HOME 下载JDK11 链接:https://www.oracle.com/java/technologies/javase/j ......
Windows Hadoop Spark and

5.30 模拟赛小记

A. 求 1 - N 每个数的约数集合 求 1 - N 每个数字约数集合,显然用试除法不合适,在这里用倍数法。对于每个数字找到范围内它的倍数,则这个倍数就可以标记约数了。 但是这是 syoj,作为一个成熟的 oier,你要学会**高效输出**,指本题卡 scanf,需要优化输出,否则你只能得到 40 ......
模拟赛 小记 5.30 30

Apache Spark 编程和优化

Assignment 2: Apache Spark Programming and OptimisationGroup Assignment (15%) 10/05/2023IntroductionThis is the second part of the practical assignmen ......
Apache Spark

方芳:驻村干部对乡村建设的作用(小记)

武汉市江夏区交通局 武汉市江夏区公路局 武汉市江夏区公路建筑工程公司 武汉市江夏城投集团有限公司 武汉江夏路桥工程总公司 武汉工程大学 土木工程与建筑学院 方芳 159 2760 2711 作为一名驻村干部,我有幸参与到了乡村建设的工作中。在这个过程中,我深刻地体会到了驻村干部在乡村建设中的重要作用 ......
小记 乡村 作用 干部

Spark入门看这篇就够了(万字长文)

本文已收录至Github,推荐阅读 👉 [Java随想录](https://github.com/ZhengShuHai/JavaRecord) 微信公众号:[Java随想录](https://mmbiz.qpic.cn/mmbiz_jpg/jC8rtGdWScMuzzTENRgicfnr91C5 ......
长文 Spark

Qt样式表踩坑小记

在一个项目里使用样式表修饰界面,最终实现的效果不错,坑也踩了不少,浪费好几天时间。 坑 1 :样式表的字符集。 这个问题只在MSVC里出现,使用MinGW应该不会出现这个问题。qt的默认字符集是utf8,但msvc要求源码必须是ANSI或者带BOM的Utf8,所以一般我们在做msvc项目时,把Qt环 ......
小记 样式

本地spark通过spark集群连接hive

最近在学习spark,上周将spark集群搭建起来了,今天在idea中创建了一个测试程序读取hive库中的数据,程序很简单,但是踩到一些坑,卡了四五个小时,做个记录。 搭建Spark集群比较简单: 1、安装scala,scala版本要和spark使用的scala版本一致(因为这个问题卡了五六个小时) ......
spark 集群 hive

Spark简介

(一)Spark介绍 Spark是一个通用的分布式数据处理引擎。 通用:通用指的是Spark可以做很多事情。包括机器学习,数据流传输,交互分析,ETL,批处理,图计算等等等等都是Spark可以做到的。甚至可以说,你需要用数据实现的任何事情,你都可以用Spark试试看。 分布式:指的是Spark处理数 ......
简介 Spark

「Note」整体DP小记

智慧智慧。 当树上问题能列出二维的 DP 方程,并且转移方程不是很复杂的时候可以用线段树来维护方程,并且用线段树合并来维护。 大概有几种情况可以直接维护。 一种是对于前缀和后缀求和之类的。在线段树合并的过程中实时维护前缀后缀和之类的。 一种是子树加在一起。显然是可以直接维护的。 ## P5298 [ ......
小记 整体 Note

旅游小记 -- 苏州和某人的第二次越野

2023年5月20日,周六一个有意思的日子。没有经过某人的同意,想见某人。 20号早上8点整起床,收拾完衣物及洗漱后8点30准时出发,10时许到达红旗4s店给车做保养,11时许踏上高速准备去杭州,堵门!堵某人的门,机会要自己争取,错过了该有多后悔;11时30分,车胎在高速被扎,吓死人,超担心被撞 ! ......
小记

在本地运行spark程序,出现Scala module 2.13.4 requires Jackson Databind version >= 2.13.0 and < 2.14.0 - Found jackson-databind version 2.12.7

这是jackson多版本题 , 我们需要屏蔽所有hadoop 组件中的Jackson,在pom.xml文件里修改: 添加 <exclusions> <exclusion> <groupId>com.fasterxml.jackson.module</groupId> <artifactId>*</a ......

React 性能 debug 小记

## 前言 之前开发重构项目的时候,遇到了一些问题, 如 `hooks` 的性能问题和 `quill` 的重载问题。本文就是记录这些问题的解决过程。 ## 场景 在基于富文本的输入场景中,我们发现在输入回车后会出现明显的卡顿现象。为了更好地展示此类场景,这里使用了一个简单的例子展示。 ```tsx ......
小记 性能 React debug

线性规划转对偶网络流问题小记🐤

## 二元线性规划问题转网络流:对于 $n$ 个变量 $x_i$,限制形如 $x_i-x_j\ge b$ 或 $x_i\ge b$ 或 $x_i\le b$,求 $\sum c_ix_i$ 的最小值,可以转化成上下界最大费用流求解。 首先重温线性规划问题的一般形式(之一): $$ \begin{al ......
对偶 小记 线性 128036 问题