小记spark

nebula小记

为什么要用GraphDB 1、图数据库是专门用于存储和检索庞大信息网的存储引擎,能够高效将数据存储为点和边,并允许对这些点边结构进行高性能的检索。 2、关系型数据库在处理复杂数据关联运算上表现很差,数据库建模复杂,数据量大时有性能问题,多度关系查询开销大。 3、图数据库相对关系型数据库的优点:建模简 ......
小记 nebula

python小记

特殊变量 双下划线开头,双下划线结尾的变量和方法 双下划线开头,双下划线结尾的变量是特殊变量,特殊变量是可以直接访问的,不要随意取这种形式的变量名。 双下划线开头,双下划线结尾的方法是特殊方法,有特殊用途,比如__init__会在初始化实例的时候被调用,__del__在引用计数为0时被调用,__eq ......
小记 python

redis小记

redis 1、redis是一款c语言编写的基于内存的kv存储,是目前市面上最流行的nosql开源项目,常用于缓存场景(优点高性能/寻址更快,缺点易失存储/价格更高) 2、redis快的原因:纯内存操作、单线程避免上下文切换、采用非阻塞IO多路复用机制(1个线程监控多个连接,一旦某个连接就绪,就能够 ......
小记 redis

scala小记

scala和java 1、scala是基于java开发的,以jvm为运行环境,将面向对象和函数式编程结合起来的静态编程语言。 2、scala是面对对象的语言,万物皆对象,对象的本质是对数据和行为的封装(对象/属性/行为) 3、scala是函数式的语言,万物皆函数,函数是将解决问题的一个个步骤的封装, ......
小记 scala

一些小记

美剧: 艾米丽在巴黎 刘瑜 观念的水位 李银河:女性主义 《看见成长的自己》 复旦大学 沈奕裴老师 讲座:是什么阻挡了我们相亲相爱 张悦然 顿悟的时刻 纪录片 河西走廊、神秘的西夏 博尔赫斯 诗 我用什么才能留住你 黄灿然 奇迹集 樊登解读: 恰如其分的自尊 人生有很多象限。 很多成功人士其实也是低 ......
小记

spark小记

Spark介绍 1、Spark 是一种由 Scala 语言开发的基于内存的快速/通用/可扩展的大数据分析计算引擎。 2、Spark Core中提供了Spark最基础与最核心的功能。Spark SQL 是 Spark 用来操作结构化数据的组件。 3、MLlib 是 Spark 提供的一个机器学习算法库 ......
小记 spark

python小记

特殊变量 双下划线开头,双下划线结尾的变量和方法 双下划线开头,双下划线结尾的变量是特殊变量,特殊变量是可以直接访问的,不要随意取这种形式的变量名。 双下划线开头,双下划线结尾的方法是特殊方法,有特殊用途,比如__init__会在初始化实例的时候被调用,__del__在引用计数为0时被调用,__eq ......
小记 python

hive小记

Hive介绍 1、Hadoop是由java语言编写的,在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架 2、Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张表,并提供类SQL查询功能 3、Hive处理的数据存储在HDFS,底层实现是MapReduce,执行 ......
小记 hive

flink小记

Flink核心概念 1、Flink是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架 2、Flink底层是以Java编写的,并为开发人员同时提供了完整的Java和Scala API。 3、Flink运行时包括JobManager(Master)和TaskManager(Work ......
小记 flink

nebula小记

为什么要用GraphDB 1、图数据库是专门用于存储和检索庞大信息网的存储引擎,能够高效将数据存储为点和边,并允许对这些点边结构进行高性能的检索。 2、关系型数据库在处理复杂数据关联运算上表现很差,数据库建模复杂,数据量大时有性能问题,多度关系查询开销大。 3、图数据库相对关系型数据库的优点:建模简 ......
小记 nebula

redis小记

redis 1、redis是一款c语言编写的基于内存的kv存储,是目前市面上最流行的nosql开源项目,常用于缓存场景(优点高性能/寻址更快,缺点易失存储/价格更高) 2、redis快的原因:纯内存操作、单线程避免上下文切换、采用非阻塞IO多路复用机制(1个线程监控多个连接,一旦某个连接就绪,就能够 ......
小记 redis

scala小记

scala和java 1、scala是基于java开发的,以jvm为运行环境,将面向对象和函数式编程结合起来的静态编程语言。 2、scala是面对对象的语言,万物皆对象,对象的本质是对数据和行为的封装(对象/属性/行为) 3、scala是函数式的语言,万物皆函数,函数是将解决问题的一个个步骤的封装, ......
小记 scala

spark-scala-mysql 编译报错

用spark接收mysql数据,编译时报错 java: cannot access scala.Serializable class file for scala.Serializable not found 问题原因: scala 2.13及以上版本,缺少类 Serializable 解决: 使用 ......
spark-scala-mysql spark scala mysql

Spark Yarn模式

独立部署(Standalone)模式由 Spark 自身提供计算资源,无需其他框架提供资源。这种方式降低了和其他第三方资源框架的耦合性,独立性非常强。但是Spark 主要是计算框架,而不是资源调度框架,所以本身提供的资源调度并不是它的强项,所以还是和其他专业的资源调度框架集成会更靠谱一些。 在国内工 ......
模式 Spark Yarn

Spark 3.5.0 高可用部署

1.下载Spark 3.5.0 https://spark.apache.org/downloads.html 2.安装JDK Linux 安装Openjdk 3.安装Hadoop Hadoop-3.3.6分布式集群搭建步骤 4.安装Zookeeper ZooKeeper 3.9.1 集群模式安装 ......
Spark

Spark与RDD是什么

大数据框架可不是只有Hadoop哦,还有一个非常厉害的框架,它就是——Spark。 一:什么是Spark Apache Spark是一个快速通用的集群计算系统,是一种与Hadoop相似的开源集群计算环境,但是Spark在一些工作负载方面表现得更加优越。它提供了Java、Scala、Python和R的 ......
Spark RDD

Spark 3.5.0 独立部署(Standalone)模式

1.下载Spark 3.5.0 https://spark.apache.org/downloads.html 2.安装JDK Linux 安装Openjdk 3.安装Hadoop Hadoop-3.3.6分布式集群搭建步骤 4.解压 mkdir /usr/spark tar -zxvf spark ......
Standalone 模式 Spark

spark与scala版本对应查看

https://mvnrepository.com/artifact/org.apache.spark/spark-core ......
版本 spark scala

为什么Spark比MapReduce快?

1、内存和磁盘使用方面 Spark vs MapReduce不等于内存 vs 磁盘,Spark和MapReduce的计算都发生在内存中,区别在于: MapReduce需要将每次计算的结果写入磁盘,然后再从磁盘读取数据,从而导致了频繁的磁盘IO。 Spark通常不需要将计算的结果写入磁盘,可以在内存中 ......
MapReduce Spark

2023-2024元旦联欢会小记

Day -2 gg 说放假,终于能确定回来了。 Day -1 开始摆烂,但是还是在学习淀粉质。 怎么说看了付姐的朋友圈,看到大家在包饺子,又错过一个活动怎么说。 gg 说开茶话会。高一同学:茶话会?不,是鸿门宴。 真的是晚会!唱了首《稻香》。感觉回到了高一在班里一起唱歌。晚会在情侣合体的时候达到了高 ......
联欢会 小记 2023 2024

【2023.12.29】修复服务器小记录,重装Proxmox

半年没碰服务器了,没想到还是挂了,卡在BIOS过不去 NUC因为没有主板电池,所以还特地找了下怎么重置,没想到是拔出主板上的黄色保护器,使两个针脚空接 和我想象中的不太一样,照理来说应该是针脚对接,才能重置才对 因为这样子的话,这个黄色保护套就不能随意丢弃了,感觉这个主板的设计有问题 折腾了两小时怒 ......
小记 Proxmox 服务器 2023 12

mac日志小记

目录: /var/log 1 -rw-r--r-- 1 root wheel 1.7M Dec 29 10:31 daily.out 2 -rw-r--r-- 1 root wheel 2.8K Dec 11 14:06 monthly.out 3 -rw-r--r-- 1 root wheel 1 ......
小记 日志 mac

【反射】反射获取私有字段小记

问题: // 直接按类字面量获取 Class<?> myClass = ClassTestA.class; // 全类名反射获取 Class<?> myClass = Class.forName("com.cambrianwenjie.demo.ClassTestA"); // 获取私有字段 Fie ......
小记 字段

spark 3.0新特性

一、Adaptive Query Execution 自适应查询 https://blog.51cto.com/u_12865/7338853 二、Dynamic Partion Pruning 动态裁剪分区 Apache Spark 3.0 动态分区裁剪(Dynamic Partition Pru ......
特性 spark 3.0

详解Java编写并运行spark应用程序的方法WordCount_tyt2023

SparkContext:通往Spark集群的入口点,用于创建RDD和广播变量等 RDD:弹性分布式数据集,Spark应用程序的核心抽象 Transformation:操作RDD生成新的RDD,如map、filter等 Action:对RDD的操作,如count、collect等 环境:Spark ......

nlog使用小记(日志文件分割备份循环)

nlog使用小记(日志文件分割备份循环) fileName: 当前记录日志的文件名 archiveFileName:归档日志文件名 archiveAboveSize:文件达到多大进行归档 maxArchiveFiles:归档的日志文件保留数量 archiveNumbering:归档文件名称的保留方式 ......
小记 备份 文件 日志 nlog

Spark 开发与应用_tyt2023

本实验基于MRS环境,主要介绍如何利用Spark RDD的常用算子进行简单统计分析,以及如何利用SparkSQL进行结构化批处理。 购买弹性公网IP 购买MRS集群 选择“自定义购买” 区域:华北—北京四 计费模式:按需计费 集群名称:mrs-bigdata 版本类型:普通版 集群版本:MRS 3. ......
Spark 2023 tyt

Spark写hive insertInto和saveAsTable的差别和错误

insertInto必须保证源表字段顺序和hive表字段顺序一致,不然会插入乱序,如果字段数不一致,会报错 saveAsTable append模式下,如果字段数不一致,会报错,overwrite模式下,会重建表 如果是外部表,已经存在了数据,saveAsTable会报错 org.apache.sp ......
saveAsTable insertInto 差别 错误 Spark

Hago 的 Spark on ACK 实践

长期以来,Hago 都是在 IDC 里运行大数据任务,以支撑上面的许多产品,从 2022 年开始,Hago 开始将大数据业务迁移上云,并以 Spark on ACK 的形式来运行,本文主要针对迁移过程进行介绍。 ......
Spark Hago ACK on

Spark常用Sql

一、日期处理 1、查询当前日期 SELECT current_date() 2023-12-22 2、查询当前时间戳 select current_timestamp() 2023-12-22 14:50:19.213 3、查询当前时间戳-1小时 select current_timestamp() ......
常用 Spark Sql
共478篇  :2/16页 首页上一页2下一页尾页