小记spark

Hadoop、Hive和Spark的关系

大数据技术生态中，Hadoop、Hive、Spark是什么关系？| 通俗易懂科普向 Hadoop、Hive和Spark，都是大数据相关的系统和技术。大数据也是数据管理系统的范畴。数据管理系统涉及两个方面的问题，一个是数据怎么存储？一个是数据怎么计算？为了方便理解，我们需要从单机的时代来讲解。在 ......

Hadoop Spark Hive更新时间 2023-04-05

大数据经典论文解读 - Spark

Spark Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing 可看作一个支持多轮迭代的MapReduce模型，但是引入了 RDD 这样的函数式对象的数据集概念。Sp ......

经典数据论文 Spark更新时间 2023-04-04

4.4 模拟赛小记

从之前惨痛的经历中吸取教训，我决定一天写一篇博客来记录我的学习，毕竟多写题解多交流才能学好 oi。 T1 格雷码 P5657 洛谷传送门根据题目给出的要求找规律，有两种做法，一是口胡找规律，二是用递归分治的思想，一半一半切下去。我这里是口胡的，如果你写出来 k 号的二进制，会发现格雷码就是将自己 ......

模拟赛小记 4.4更新时间 2023-04-04

A7--Spark部署

一、版本信息 JDK 1.8 spark 3.2.1 二、安装部署 1）上传解压缩文件 tar -zxvf spark-3.2.1-bin-hadoop3.2.tgz 2）配置环境变量 vim /etc/profile # Spark export SPARK_HOME=/opt/spark-3.2 ......

Spark A7更新时间 2023-04-04

快慢指针-小记

快慢指针中的快慢指的是移动的步长，即每次向前移动速度的快慢。例如可以让快指针每次沿链表向前移动2，慢指针每次向前移动1次。最后，慢指针就是中位数。这个理论，是建立在中位数 = n / 2的基础上。同时，适用于: 单向链表查找。这个理论，需要一个简易的规律总结即可自证。 [1, 2, 3] lo ......

快慢小记指针更新时间 2023-04-03

归并排序-小记

归并排序是建立在归并操作上的一种有效，稳定的排序算法，该算法是采用分治法（Divide and Conquer）的一个非常典型的应用。将已有序的子序列合并，得到完全有序的序列；即先使每个子序列有序，再使子序列段间有序。若将两个有序表合并成一个有序表，称为二路归并。类比题目: 三数求和。 ......

小记更新时间 2023-04-03

Hive 和 Spark 分区策略剖析

随着技术的不断的发展，大数据领域对于海量数据的存储和处理的技术框架越来越多。在离线数据处理生态系统最具代表性的分布式处理引擎当属Hive和Spark，它们在分区策略方面有着一些相似之处，但也存在一些不同之处。 ......

策略 Spark Hive更新时间 2023-04-03

idea中spark安装

Idea中spark的安装配置下载Scala插件后新建scala项目更改scala的SDK(下载的版本)和jdk并且更改工作空间导入spark相关的架包找到安装路径导入jars或者lib(找到Libraries添加ScalaSDK和java) 设置maven全局的参数(导入maven的安装路径 ......

spark idea更新时间 2023-04-02

【使用小记】Debian开箱不即用之apt镜像源之配置

安装问题首先开局就是：```Debian读取数据出错请确认您已经插入了正确的安装介质......``` (我默认的是繁体：```讀取資料時發生了問題請確認是否已確實放置安裝媒體...```) 处理方法①：推荐！刷入livdCD，安装时候镜像源前用工具ping一下然后看看哪个快（这个方法不会轻 ......

小记镜像 Debian apt更新时间 2023-04-02

Thinkpad T14升级Windows11ver22h2失败问题解决小记

背景手头的ThinkPad在近一年的时间里每次升级Windows 11的22h2版本每次都会报错，具体有以下几种情况：更新过程中无问题，重启后黑屏更新过程中会卡在26%左右，然后蓝屏报KENERAL_CHECK_FAIL，接着便自动重启进入修复程序在Windows Update更新中报错0xC ......

小记 Thinkpad Windows 问题 T14更新时间 2023-04-01

Spark源码解析（二）：Spark闭包检查

一、理解 Scala 闭包：Closures 1.1 闭包的定义闭包就是一个函数和与其相关的引用环境组合的一个整体(实体)。进一步说，闭包是绑定了自由变量的函数实例。通常来讲，闭包的实现机制是定义一个特殊的数据结构，保存了函数地址指针与闭包创建时的函数的词法环境以及绑定自由变量。对于闭包最好的 ......

闭包 Spark 源码更新时间 2023-03-31

Spark源码解析（一）：RDD之Transfrom算子

一、延迟计算 RDD 代表的是分布式数据形态，因此，RDD 到 RDD 之间的转换，本质上是数据形态上的转换（Transformations）在 RDD 的编程模型中，一共有两种算子，Transformations 类算子和 Actions 类算子。开发者需要使用 Transformations ......

算子 Transfrom 源码 Spark RDD更新时间 2023-03-31

常用spark优化参数

常用spark优化参数强制使用spark engine set tqs.query.engine.type = sparkCli; set spark.yarn.priority = 4; 双写HDFS开启： set spark.shuffle.hdfs.enable=true; set spar ......

常用参数 spark更新时间 2023-03-30

Springer出版社Applied Intelligence期刊投稿小记

本篇文章记载自己在投稿过程面临的一些问题和解决方法，希望能对计划投稿本期刊的同学有所帮助。 1.模板网站要求的nature模板：(注意不要尝试动模板，例如觉得页面怎么窄长窄长的，图片与段落间距有些大，表格怎么不居中等，please直接用) Springer Nature Latex Templat ......

小记 Intelligence Springer 期刊出版社更新时间 2023-03-29

docker 搭建大数据集群（hive、hbase、ZooKeeper、Scala、Spark）

1）本机系统设置电脑设置虚拟缓存（设置为自动管理）虚拟机设置内存和CPU 内存设置为8G（或以上） CPU稍微设置高一点（三个虚拟化能开就开）虚拟机系统配置阿里源 wget -O /etc/yum.repos.d/CentOS-Base.repo https://mirrors.aliyun. ......

集群 ZooKeeper 数据 docker Scala更新时间 2023-03-28

Thymeleaf小记

1.@{}和${} @{}里放的是超链接，${}里放的是属性值示例代码 <!DOCTYPE html> <html lang="en" xml:th="http://www.thymeleaf.org"> <head> <meta charset="UTF-8"> <title>Title</ti ......

小记 Thymeleaf更新时间 2023-03-28

Spark任务调试（Scala开发语言）

// 将dataframe存储到hdfs myDF.write.orc("hdfs://nsxxxx/user/admin/dir") // 读取操作 val mdf = spark.read.orc("hdfs://nsxxxx/user/admin/dir") ......

任务语言 Spark Scala更新时间 2023-03-27

Spark入门到精通

一、Spark简介 1. 概念 Apache Spark 是一个开源的分布式计算系统，最初由加州大学伯克利分校的AMPLab（Algorithms, Machines, and People Lab）开发，并于2010年加入Apache基金会进行开源。Spark 提供了一种统一的数据处理引擎，支持在 ......

Spark更新时间 2023-03-25

大数据之—Spark环境搭建

前言参考：https://blog.csdn.net/wzb1983/article/details/125761231 官网：http://spark.apache.org/downloads.html 软件仓库：https://archive.apache.org/dist/spark/ 软件 ......

环境数据 Spark更新时间 2023-03-24

互异关系容斥&集合幂级数小记

最近碰见了一些互异关系容斥的题目，而这类题目往往要配合集合幂级数的一些技术使用，所以简单记记。内容很杂，行文很乱，作者水平很低，酌情观看。互异关系容斥思想其实很基本，应用范围其实很广。原论文。思想就是对于 $x_i\neq x_j$ 这样的限制，经典对于限制的子集容斥是钦定违反 $S$ 中 ......

幂级数小记 amp更新时间 2023-03-24

2023/3/23小记

距离省选还有8天因为睡了太久所以摆烂，整理了一下自己的blog。以后打算好好写一写了awa。中午打arc被光老师抓了。下午打算水点题，听说有体育课。做题记录 ......

小记 2023 23更新时间 2023-03-23

一次spark任务提交参数的优化

起因新接触一个spark集群，明明集群资源（core,内存）还有剩余，但是提交的任务却申请不到资源。分析环境 spark 2.2.0 基于yarn集群参数 spark任务提交参数中最重要的几个： spark-submit --master yarn --driver-cores 1 --dr ......

参数任务 spark更新时间 2023-03-23

测开小记

基于前期DRF学习成果。 1、认证与授权 1.1 Django的登录接口设置认证授权的类：在全局urls里设置登录退出路由（rest_framework自带的，返回的是html页面，不是借口）：命令行创建超级管理员账户： python manage.py createsuperuser 根据提 ......

小记更新时间 2023-03-22

《关于我因为flink成为spark源码贡献者这件小事》

各位读者老爷请放下手上的板砖，我可真没有标题党，且容老弟慢慢道来。 spark和flink本身相信我不用做过多的介绍，后端同学不管搞没搞过大数据，应该都多多少少听过。如果没听过，简单说，spark和flink之于大数据，就好比vue和react之于前端，就好比spring家族之于java。从20 ......

贡献者源码小事贡献 flink更新时间 2023-03-22

微软外服札记④——Spark中的那些坑...

Spark中的那些坑 Spark中的那些坑前言读取配置文件时区陷阱怪异的DayOfWeek substring陷阱 IP地址解析枚举的数值 posexplode函数为什么我的程序运行那么慢？慎用Count()和Show() 为什么我的程序运行那么慢？（2）优化、优化其它题外话前言 ......

札记 Spark更新时间 2023-03-22

一图看懂Hadoop中的MapReduce与Spark的区别：从单机数据系统到分布式数据系统经历了哪些?

今日博主思考了一个问题：Hadoop中的MapReduce与Spark他们之间到底有什么关系？直到我看到了下面这张图废话不多说先上图👇 我们知道，单机数据系统，在本地主机上针对数据有单机本地存储操作（localFS）和单机计算操作（SQL）这是在数据量比较小方便在一台主机就完成任务的情况。 ......

数据系统分布式单机 MapReduce更新时间 2023-03-22

共476篇 :16/16页 首页上一页13141516下一页尾页