小记spark

「Log」2023.11.14 小记

NOIP Day -3 序幕 \(\text{6:40}\):到校,需要冬眠。 杯子没盖水紧撒了一地,赶紧收拾完去整理博客,模拟赛之前先找点数据结构做吧。 \(\text{7:30}\):开题,T1 感觉很没有水平,T2 不知道什么情况,T3 讲过,T4 神秘。 感觉这次题可做,我直接倒序开题。 思 ......
小记 2023 Log 11 14

LCT 小记

LCT 小记 前言 在 OI 中,对于常规的树论问题,其树的形态一般是静态的。 但往往会存在一批毒瘤出题人,他们把树的形态变成了动态的,出现了 加边/删边 等操作。 而对于这类 「动态树问题」,我们有三种常见的数据结构可以维护,而本文将简单地引入其中的一种。 LCT。 以下简称这类处理动态树问题的数 ......
小记 LCT

11.14 模拟赛小记

#include<bits/stdc++.h> #define db double using namespace std; const int N=1e5+10; db H; int n; struct node{int t,h;}a[N]; bool cmp(node x,node y){ret ......
模拟赛 小记 11.14 11 14

数据库小记

MySQL 数据库是结构化信息或数据的有序集合,一般以电子形式存储在计算机系统中。本总结笔记是以MySQL为例来进行记录的。 数据库使用时操作对象一般包括数据库、数据表及表中数据等,操作类型一般为创建、选择、删除,以及对表中数据的插入、删除、更新、查询。如下图: 除此之外,还有较为少用的对于用户的操 ......
小记 数据库 数据

11.13 模拟赛小记

30+0+10+0 全真模拟。今天的模拟赛有一种格外的说不上来的绝望的感觉。很不好描述的。一直在想如果这是真实的 noip 赛场那我不就大寄特寄了。 下午因为不舒服所以玩了一下午(?)一直在机惨别人(?)玩的很开心。 但还是想看大家在机房跳钢管舞喵(? A.game 赛时看到这个题之后就变得很愚蠢。 ......
模拟赛 小记 11.13 11 13

「Log」2023.11.13 小记

NOIP Day -4 序幕 \(6:50\):准时到校,整理博客,先改题。 一直在 T,写个拍瞅一眼,发现判断边界的时候有问题,逻辑一塌糊涂,不知道当时咋写的。 八点半的时候终于过掉了第二分块。 \(\color{black}{P4117}\) 第二分块。 间幕 \(1\) 吃了个早饭就九点半了, ......
小记 2023 Log 11 13

字符串小记

有些东西不专门记一下就要忘。。。 kmp 核心是 \(next\) 数组, 即当前缀的除去自身的最大 \(border\) 。在字符串匹配时考虑双指针,一旦失配就跳 \(next\),找到可能再次匹配的开始位置 \(p\) 。基于 \(border\) 的性质,只要 \(s[i - j + 1, i ......
小记 字符串 字符

Spark优化

意识篇 类型转换 优化前: val extractFields: Seq[Row] => Seq[(String, Int)] = { (rows: Seq[Row]) => { var fields = Seq[(String, Int)]() rows.map(row => { fields = ......
Spark

11.10 模拟赛小记

特附今日闲话。 100+95+0+20. A.数字操作(num) 赛时其实是看了一下样例和数据范围的一档说均为质数,无端的想到 gcd 于是就秒掉了。 其实因为这个减数、统计不重复的过程就类似于辗转相除吧。然后就没了。没什么说的,存一下码好了。 #include<bits/stdc++.h> usi ......
模拟赛 小记 11.10 11 10

基于Spark对消费者行为数据进行数据分析开发案例

原创/朱季谦 本文适合入门Spark RDD的计算处理。 在日常工作当中,经常遇到基于Spark去读取存储在HDFS中的批量文件数据进行统计分析的案例,这些文件一般以csv或者txt文件格式存在。例如,存在这样一份消费者行为数据,字段包括消费者姓名,年龄,性别,月薪,消费偏好,消费领域,购物平台,支 ......
数据 数据分析 消费者 案例 行为

「Log」2023.11.9 小记

序幕 \(\text{7:00}\):起晚了到校(不是为啥这个点还没人),整整博客。 接着做点 CF 题,等会模拟赛。 \(\text{7:30}\):准时开题。 看来是 JOI 专场,题面还是有点意思的。(实际上是 JOISC 2015,赛后知道的。) T1 感觉有点神秘先跳过。 T2 貌似除了最 ......
小记 2023 Log 11

11.9 小记

今天的题目很难评啊,你说他难吧那倒也不是,反正就是,又偏又怪,我感觉价值非常有限,所以一题也没补。记录一下喔。 今天足足 5pts 呢!历史新低。 晚自习看同学做一个黄色的小小模拟题,然后说要“同台竞技”,于是我也去做,结果写了四十多分钟。虽然一发过了但是还是感觉被降智了。这是题目链接:作业调度方案 ......
小记 11.9 11

10.31 模拟赛小记

抽象场。打完人自闭的那种。 得分情况:\(80-0-30-30\)。 A:从 \(0\) 走到 \(n\)。在 \(i\) 位置时,等概率走的走到 \([i+1,n]\)(视为一步)。求期望步数。 哥们赛时,爆搜打表找规律。。。最后写的 O(n),没看到第九个数据点没有特判。对于最后一个点 1e18 ......
模拟赛 小记 10.31 10 31

11.8 模拟赛小记

僕を連れてって,浸み込んでしまう前に 菜哭了。不会打,看了半个小时史铁生散文集。 100+0+80+0 喵。 A.俨俨与道路(constructure) 正解是最小生成树。我的思路差不多。 为了全部联通,需要 n-1 条边。随意先计算给定的确定起始点的边,根据边权排序,从中挑至少 \(n-1-k\) ......
模拟赛 小记 11.8 11

「Log」2023.11.7 小记

序幕 早上好冷好冷好冷。 \(\text{6:40}\):冰冻到校。 补昨天的博客,一直补到七点多。 \(\text{7:30}\):模拟赛开题。 题面都很简洁,简单浏览一遍,感觉没什么不可做题。 先开 T1,缩点是显著的,缩完点直接套了个贪心上去。 大样例过不了,开始思考正确性。 用一条链就简单地 ......
小记 2023 Log 11

11.7 模拟赛小记

摘要:三道原,比较之前的难,发挥不好,八点半从机房外面过去的帅哥真的真的真的好帅我一下子无心大模拟赛了一整个惊艳到。 A.油田(oil) P3888 GDOI2014 拯救莫莉斯 状压 dp,据说爆搜也能过。本蒟蒻不会写剪枝,喜提 20pts。 状压 dp 思路: 首先 \(n*m<=50\),\( ......
模拟赛 小记 11.7 11

算法学习笔记(36): 点分治,边分治小记

分治,分而治之,是通过减少数据规模,然后合并的结果,从而减少复杂度的思想。 其实感觉本文应该放在分治里面讲……算法学习笔记(31): 分治 在经典的序列分治中,我们是对于每一个点,求出经过这个点的那些区间的贡献。 在点分治中,同样我们是对于每一个点,求出经过这个点的那些路径的贡献。 放在边分治中,则 ......
小记 算法 笔记 36

今日小记——Jupyter Notebook默认工作目录的修改

1、生成jupyter notebook的配置文件 打开Anaconda Prompt,输入jupyter notebook --generate-config生成当前jupyter notebook的配置文文件,返回一个jupyter_notebook_config.py的文件的地址 2、修改配置 ......
小记 Notebook Jupyter 目录

「Log」2023.11.6 小记

序幕 \(\text{6:40}\):冰冻到校,今天好冷,学校雪休但我们不休。 先补一补博客然后去写一些东西。 \(\color{blueviolet}{CF1499F}\) 设 \(f_{u, x}\) 表示在 \(u\) 子树内,\(u\) 向下延伸最多 \(x\) 步的方案数。转移是简单的,考 ......
小记 2023 Log 11

Unity ET服务器框架小记

前言 之前用过一段时间Mirror,它是一个服务器客户端一体的框架,通过给方法打上特定注解,来控制该方法运行在客户端还是服务器上(Unity官方已弃用的UNet设计思路一致)。这是它的优点,也是它的缺点,见仁见智吧。抛开这一点不谈,如果是客户端做主机那还好,但如果要打包为Deplicate Serv ......
小记 框架 服务器 Unity

HttpClient.PatchAsJsonAsync - dotnet/runtime 项目贡献小记

TL;DR 迫于 PatchAsJsonAsync 方法缺失,我给 dotnet/runtime 项目贡献了相关的 API,可惜要到 .NET7 才能用上。 https://github.com/dotnet/runtime/pull/60672 正文 同事小陈 的 issue 收到了回复,希望他可 ......

「Log」2023.11.3 小记

序幕 起床的时候天还是黑的,差点再睡过去。 \(\text{6:50}\):冰冻到校,写一些文章。 没什么灵感倒是,把昨天没写完的写完了。 上午同学讲题,CF 1800-1900,大部分都是乱杀。不到两个小时讲完了,准备补题。 没啥做题欲望,一直在摆或者找一些写作灵感,但也没啥好写的,中午补两道题。 ......
小记 2023 Log 11

11.3 模拟赛小记

今天题目质量逆天,题也不是那个他讲的。应该是生气了。所以我也不打算写赛时记录了。 T1 分讨负数个数,T2 二分答案;T3 我写了哈希,想半天想不到性质;T4 小范围暴力大范围输出区间最大值 + 暴力之类的。 本场的感觉很不好。模拟赛期间最绝望的是闲下来:指已经不能进一步思考、没有什么需要调了、没有 ......
模拟赛 小记 11.3 11

11.2 模拟赛小记

那时,太阳循着亘古不变的路途正越来越大,也越红。在满园弥漫的沉静光芒中,一个人更容易看到时间,并看见自己的身影。 ......
模拟赛 小记 11.2 11

javaapi、spark、flink 创建Iceberg表,hive 和impala无法正常读取解决

spark、flink 创建Iceberg表中,元数据存储在hive 的meta_store,发现hive 或者impala无法正常读取报错。事实上解决方案是 在spark 、flink 的SQL中执行语句: add iceberg相关引擎的runntime的jar;ALTER TABLE t SE ......
javaapi Iceberg impala flink spark

spark代码示例---explode()炸裂函数使用

数据结构,及bean的结构 root |-- eventName: string (nullable = true) |-- itmeList: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- d ......
示例 函数 explode 代码 spark

11.1 模拟赛小记

zjp 老师的第二套题。 讲题之前的经验分享内容整理: 在考模拟赛时, 1.不会的知识点:记下来,赛后看博客学习,做题。 2.考试策略。总结分为什么没了: ​ (1) 写挂了->总结,为什么会挂,错误点,是否需要练习对拍。在考试中一定不能挂分。平时保证不挂分。 ​ (2)时间不够写,赛时调不出来:多 ......
模拟赛 小记 11.1 11

spark由于shuffle中read过大造成netty申请DirectMemor异常(转)

1.报错日志: ​ WARN TaskSetManager: Lost task 29.0 in stage 22.0 (TID 1851, wn108-cdlcns.bjduloineequ3adfbkrpgi4p2c.shax.internal.chinacloudapp.cn, executo ......
DirectMemor shuffle spark netty read

k-D Tree小记

k-D Tree 是一种能够 高效处理 \(k\) 维空间信息 的数据结构。 建树 k-D Tree 具有二叉搜索树的形态,二叉搜索树上的每个结点都对应 \(k\) 维空间内的一个点。其每个子树中的点都在一个 \(k\) 维的超长方体内,这个超长方体内的所有点也都在这个子树中。 假设我们已经知道了 ......
小记 Tree k-D

「Log」2023.10.30 小记

序幕 \(\text{6:50}\):昏暗到校,写 CF 杂题。 经过两个小时的思考终于看懂了题解。 \(\color{blueviolet}{CF1530F}\) 此题是神秘题。 考虑反着做,将至少有一行或一列或一条对角线全为 \(1\) 概率转换为所有行列对角线都至少有一个 \(0\)。 先不考 ......
小记 2023 Log 10 30