小记spark

Hive和Spark生产集群搭建

1.环境准备 1.1 版本选择序号 bigdata-001 bigdata-002 bigdata-003 bigdata-004 bigdata-005 MySQL-8.0.31 mysql Datax Datax Datax Datax Datax Datax Spark-3.3.1 Spar ......

集群 Spark Hive更新时间 2023-12-21

好题小记

CF838D Airplane Arrangements 题目传送门很高妙的题。直接计算不太好做，考虑把链首尾接起来拼成环，但注意到直接拼就无法判不合法，所以在 $1$ 和 $n$ 中间插入一个 $n+1$ 号点，若 $n+1$ 号点被覆盖则不合法。考虑对于所有方案计算 $n+1$ 号点被覆盖 ......

小记更新时间 2023-12-20

C++ 反向遍历 array 小记

有时候需要逆向循环，例如从字符串的最右端遍历到最左端，需要注意一些细节！初学遇到一些 bug 记录在这里。首先 arr.size() 的数据类型为 size_t，为无符号整型对于 for (int idx = arr.size() - 1; idx >= 0; idx--): 使用 int 作为 ......

小记 array更新时间 2023-12-19

[2023.12.14] 大学 & XCPC小记

说起来 OI 退役多年，已经很久没有维护过这个博客。上一周打完 ICPC 杭州站，也是大三赛季的最后一站，总觉得应该记一些什么……不止是记录我的 XCPC 生涯，也是给大学的前面快要 5 个学期做一个大体上的总结吧~ 一切都还要从高考结束开始说起。 2021.6 高考 & 暑假篇高考结束，估分给 ......

小记大学 2023 XCPC amp更新时间 2023-12-18

安装spark启动及遇到的问题

参考博主：Ubuntu下安装Spark3.2.0教程_ubuntu火狐浏览器怎么下载spark-CSDN博客在这个博主的内容中安装spark，要注意滴是：这里同时修改了spark-evn.sh的文件名称记得修改，然后下面运行的时候我啥结果也没有，后面直接不管了打算执行命令：spark-shel ......

问题 spark更新时间 2023-12-18

[spark] coalesce() 和 repartition()的区别

coalesce(1) 的主要作用是将数据合并到尽可能少的分区中，而 repartition(1) 则是将数据随机重分区为一个分区。这使得 coalesce(1) 相对而言更加高效，因为它减少了数据移动的次数，只需要在当前 Executor 上将所有分区的数据都收集到当前应用程序的单个 Execut ......

repartition coalesce spark更新时间 2023-12-13

博弈论小记

博弈论是好文明喵！博弈论入门提单喵阶梯博弈讲解例题 POJ1704 评价：证明简单，特征比较明显，基本是铜/银牌题斐波那契博弈讲解例题 HDU2516 评价：证明困难，但特征十分明显，直接打表找规律 Nim游戏的有趣题目 D-HihoCoder - 1172 题意：有一行n个硬币，有的 ......

博弈论小记更新时间 2023-12-08

Iceberg Spark存储过程-表治理工具

一、简介存储过程（Procedure）是数据库领域的概念，类似于编程语言中的方法或函数，是对实现特定操作的封装，原生的 Spark SQL 中是不支持存储过程的，Iceberg 0.11.0版本之后对其进行了扩展，并提供了部分存储过程的实现。Iceberg 中提供的所有存储过程都在system n ......

过程 Iceberg 工具 Spark更新时间 2023-12-08

[OpenVR] OpenVR 驱动开发调试的方法小记

OpenVR 驱动开发调试方法 VR 也许是下一个风口，也许只是一场耀眼的烟花晚会。这年轻的平台还有许多未成形的构建，其中恰好就包括一个完整的调试架构。这使得 VR 开发，尤其是驱动层的开发，变得十分得痛苦。因为我个人的习惯，我会尽可能避免调用 Visual Studio. 但是由于在 Windo ......

OpenVR 小记方法更新时间 2023-12-05

spark-sql查询Iceberg时处理流程

1、查询表结构 show create table data_lake_ods.test CREATE TABLE spark_catalog.data_lake_ods.test ( `user_number` BIGINT NOT NULL, `subclazz_number` BIGINT N ......

spark-sql 流程 Iceberg spark sql更新时间 2023-12-05

科研小记——画箱型图

数据： a 1000*1 表示1000个脑区各自的值 b 1000*1cell 表示1000个脑区各自属于的脑网络 c 1*7cell Color=[219 2 10;231 95 27;238 146 43;246 191 65;246 236 84;202 222 169;147 205 137 ......

小记科研更新时间 2023-12-03

spark提交文件支持路径类型

spark-submit 提交文件支持的路径类型类似以下参数 --files --jars --archives --conf spark.yarn.jars --conf spark.yarn.archive --conf spark.yarn.dist.archives --conf spar ......

路径类型文件 spark更新时间 2023-11-30

spark提交参数 [spark.yarn.dist.jars] 和 [spark.yarn.jars ]区别

spark.yarn.dist.jars 作用用于指定分发到集群节点上的 JAR 包的路径。工作原理 Spark 应用程序的执行器会将这些 JAR 包分发到它们的本地文件系统上。这样，应用程序可以在执行期间访问这些 JAR 包。使用场景适用于应用程序的依赖项，这些依赖项不需要在整个集群中共享 ......

spark jars yarn 参数 dist更新时间 2023-11-30

mysqlsh备份恢复小记

参考文档: https://mp.weixin.qq.com/s/SGWgecxrpLNhnQzQMwh_Ew https://opensource.actionsky.com/20221012-mysql/ https://blog.csdn.net/m0_67261762/article/det ......

小记备份 mysqlsh更新时间 2023-11-30

QLib安装小记

先搜索了gitee , 发现没有合适的复制版本。还是取github 上看readme.md 提示python多个版本的支持功能（踩坑开始）.似乎3.8 比较合适，而我电脑上装了两个版本，3.10，3.11 . 为了简单起见，装aconda. 创建conda 环境。 conda info -e # ......

小记 QLib更新时间 2023-11-30

可持久化线段树小记

可持久化线段树小记首先你需要完成这两个模板：P3919 【模板】可持久化线段树 1（可持久化数组） P3834 【模板】可持久化线段树 2 T1 P1383 高级打字机题意： $n$ 个询问，$3$ 种操作： 1.T x：在文章末尾打下一个小写字母 $x$。 2.U x：撤销最后的 ......

线段小记更新时间 2023-11-29

Android踩坑小记-在onResume中申请权限

Android踩坑小记-在onResume中申请权限最近遇见一个问题，在onResume中申请权限，比如申请定位权限，如下所示： @Override protected void onResume() { super.onResume(); requestPermission(); } @Targ ......

小记 onResume 权限 Android更新时间 2023-11-29

spark离线分析--本地Spark1.6版本读写hive表

1. 搭建好hive环境，并将hive-site.xml文件放到本地工程的resources目录下 2. java测试代码 public class SparkHiveTest{ public static void main(String[] args){ JavaSparkContext jav ......

版本 Spark1 spark Spark hive更新时间 2023-11-28

【python小记】---PE8规范简述

【补充点】PE8规范 > [Python注释补充之PE8规范](https://www.cnblogs.com/Jack-ze/p/17401922.html) 【一】PEP 8规范 - PEP是Python Enhancement Proposal的缩写，代表Python增强提案。其中第8号增强提 ......

小记 python PE8 PE更新时间 2023-11-27

【python入门之常量与变量】---常量与变量小记

【一】变量【1】什么是变量变量是用于存储数据值的标识符，可以通过变量名访问和操作这些数据。在程序中，变量就像一个容器，用于存储和管理数据。变量就是可以变化的量，量指的是事物的状态比如人的年龄、性别，游戏角色的等级、金钱等等【2】为什么要有变量变量的存在使得程序能够更灵活地处理数据，而不 ......

常量变量小记 python更新时间 2023-11-27

博客园美化小记

参考以下博友的代码，感谢分享！爱学习的刘刘^ Quaint's Blog 需要开申请开通JS权限（必须）博客皮肤需要先择SimpleMemory才能生效将下面的代码贴到对应的位置就可以了博客侧边栏公共 <script type="text/javascript"> window.cnblog ......

小记博客更新时间 2023-11-26

spark的shuffle和mapreduce的shuffle的区别

功能上，MR的shuffle和Spark的shuffle是没啥区别的，都是对Map端的数据进行分区，要么聚合排序，要么不聚合排序，然后Reduce端或者下一个调度阶段进行拉取数据，完成map端到reduce端的数据传输功能。方案上，有很大的区别，MR的shuffle是基于合并排序的思想，在数据进入 ......

shuffle mapreduce spark更新时间 2023-11-26

spark的excutor是动态的资源分配吗，还是写死的？

在Apache Spark中，Executor的资源分配可以是动态的，而不是写死的。Apache Spark提供了一种称为动态资源分配（Dynamic Allocation）的机制，允许根据应用程序的实际需求动态调整Executor的数量。动态资源分配的主要思想是根据当前应用程序的工作负载来增加或 ......

资源分配 excutor 还是动态资源更新时间 2023-11-26

NOI2023 补题小记

Day1 T1 方格染色 $t=1/2$ 的操作可以维护矩形面积并．当 $n,m \le 1e5$ 时考虑直接将每条斜线拆成 $x_2-x_1$ 个矩形．所以朴素的矩形面积并即可通过 $95\%$ 的测试数据．当 $n, m \le 1e9$ 时，先沿用之前的思路将 \(t=1 ......

小记 2023 NOI更新时间 2023-11-24

指针小记

针对为什么传一级空指针进函数不会改变指针的指向而引发的思考首先先看下面的错误代码 1 #include <iostream> 2 using namespace std; 3 #include <stdlib.h> 4 #include <string.h> 5 void func(int *p) ......

小记指针更新时间 2023-11-22

Apache Spark 认证绕过漏洞（CVE-2020-9480）研究

一、Apache Spark简介 Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache顶级项目。项目是用Scala进行编写。目前，Spark生态系统已经发展成为一个 ......

漏洞 Apache Spark 2020 9480更新时间 2023-11-21

rabbitmq小记

发topic代码，创建交换器，数据直接按routingKey发送到交换器中： using (var connection = factory.CreateConnection()) { using (var channel = connection.CreateModel()) { // 创建交换器 ......

小记 rabbitmq更新时间 2023-11-20

Spark SQL快速入门

Spark SQL快速入门 1、概述 spark SQL是Apache用于处理结构化数据的模块。其中包含SQL、DataFrame API、DataSet API，意味着开发人员可以在不同的API之间来回切换，从而使数据处理更加灵活。 Spark SQL(Spark on hive) 数据兼容方面S ......

Spark SQL更新时间 2023-11-20

Spark Streaming快速入门

Spark Streaming快速入门一、简介 Spark Streaming 是构建在 Spark Core 基础之上的流处理框架（但实际上是微批次处理框架），是 Spark 非常重要的组成部分。严格意义上来讲，Spark Streaming 是一个准实时，微批次的流处理框架。特点：Easy ......

Streaming Spark更新时间 2023-11-20

Python、Spark SQL、MapReduce决策树、回归对车祸发生率影响因素可视化分析

原文链接：https://tecdat.cn/?p=34286 原文出处：拓端数据部落公众号分析师：Shichao Zhong 项目挑战如何处理庞大的数据集，并对数据进行可视化展示；在后续分析中特征选择是重点之一，要根据事实情况和数据易处理的角度来筛选变量解决方案任务/目标根据已有的车祸数 ......

发生率车祸 MapReduce 因素 Python更新时间 2023-11-18

共478篇 :3/16页 首页上一页123456下一页尾页