mapreduce spark

A7--Spark部署

一、版本信息 JDK 1.8 spark 3.2.1 二、安装部署 1)上传解压缩文件 tar -zxvf spark-3.2.1-bin-hadoop3.2.tgz 2)配置环境变量 vim /etc/profile # Spark export SPARK_HOME=/opt/spark-3.2 ......
Spark A7

Hive 和 Spark 分区策略剖析

随着技术的不断的发展,大数据领域对于海量数据的存储和处理的技术框架越来越多。在离线数据处理生态系统最具代表性的分布式处理引擎当属Hive和Spark,它们在分区策略方面有着一些相似之处,但也存在一些不同之处。 ......
策略 Spark Hive

idea中spark安装

Idea中spark的安装配置 下载Scala插件后新建scala项目 更改scala的SDK(下载的版本)和jdk并且更改工作空间 导入spark相关的架包找到安装路径导入jars或者lib(找到Libraries添加ScalaSDK和java) 设置maven全局的参数(导入maven的安装路径 ......
spark idea

Spark源码解析(二):Spark闭包检查

一、理解 Scala 闭包:Closures 1.1 闭包的定义 闭包就是一个函数和与其相关的引用环境组合的一个整体(实体)。进一步说,闭包是绑定了自由变量的函数实例。 通常来讲,闭包的实现机制是定义一个特殊的数据结构,保存了函数地址指针与闭包创建时的函数的词法环境以及绑定自由变量。 对于闭包最好的 ......
闭包 Spark 源码

Spark源码解析(一):RDD之Transfrom算子

一、延迟计算 RDD 代表的是分布式数据形态,因此,RDD 到 RDD 之间的转换,本质上是数据形态上的转换(Transformations) 在 RDD 的编程模型中,一共有两种算子,Transformations 类算子和 Actions 类算子。开发者需要使用 Transformations ......
算子 Transfrom 源码 Spark RDD

大数据经典论文解读 - MapReduce

MapReduce 使用MapReduce框架只要实现一个Map函数和一个Reduce函数,Map函数实现映射,接受一个key-value并转换为多个键值对;Reduce是一个化简函数,接收一个key和对应的vallue,然后组成一组新的value输出出去。 map(k1, v1) -> list( ......
MapReduce 经典 数据 论文

常用spark优化参数

常用spark优化参数 强制使用spark engine set tqs.query.engine.type = sparkCli; set spark.yarn.priority = 4; 双写HDFS开启: set spark.shuffle.hdfs.enable=true; set spar ......
常用 参数 spark

docker 搭建大数据集群(hive、hbase、ZooKeeper、Scala、Spark)

1)本机系统设置 电脑设置虚拟缓存(设置为自动管理) 虚拟机设置内存和CPU 内存设置为8G(或以上) CPU稍微设置高一点(三个虚拟化能开就开) 虚拟机系统配置阿里源 wget -O /etc/yum.repos.d/CentOS-Base.repo https://mirrors.aliyun. ......
集群 ZooKeeper 数据 docker Scala

Spark任务调试(Scala开发语言)

// 将dataframe存储到hdfs myDF.write.orc("hdfs://nsxxxx/user/admin/dir") // 读取操作 val mdf = spark.read.orc("hdfs://nsxxxx/user/admin/dir") ......
任务 语言 Spark Scala

MapReduce Shuffle源码解读

MapReduce Shuffle源码解读 相信很多小伙伴都背过shuffle的八股文,但一直不是很理解shuffle的过程,这次我通过源码来解读下shuffle过程,加深对shuffle的理解,但是我自己还是个菜鸟,这篇博客也是参考了很多资料,如果有不对的地方,请指正。 shuffle是Map T ......
MapReduce 源码 Shuffle

Spark入门到精通

一、Spark简介 1. 概念 Apache Spark 是一个开源的分布式计算系统,最初由加州大学伯克利分校的AMPLab(Algorithms, Machines, and People Lab)开发,并于2010年加入Apache基金会进行开源。Spark 提供了一种统一的数据处理引擎,支持在 ......
Spark

大数据之—Spark环境搭建

前言 参考:https://blog.csdn.net/wzb1983/article/details/125761231 官网:http://spark.apache.org/downloads.html 软件仓库:https://archive.apache.org/dist/spark/ 软件 ......
环境 数据 Spark

一次spark任务提交参数的优化

起因 新接触一个spark集群,明明集群资源(core,内存)还有剩余,但是提交的任务却申请不到资源。 分析 环境 spark 2.2.0 基于yarn集群 参数 spark任务提交参数中最重要的几个: spark-submit --master yarn --driver-cores 1 --dr ......
参数 任务 spark

MapReduce Terasort算法分析

转:https://blog.csdn.net/Trend_H/article/details/95625381 1.概述 1TB排序通常用于衡量分布式数据处理框架的数据处理能力。Terasort是Hadoop中的的一个排序作业,在2008年,Hadoop在1TB排序基准评估中赢得第一名,耗时209 ......
算法 MapReduce Terasort

统一观测丨使用 Prometheus 监控 E-MapReduce,我们该关注哪些指标?

开源大数据平台E-MapReduce(简称“EMR”)是云原生开源大数据平台,向客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎。本文旨在分享阿里云Prometheus对EMR平... ......

《关于我因为flink成为spark源码贡献者这件小事》

各位读者老爷请放下手上的板砖,我可真没有标题党,且容老弟慢慢道来。 spark和flink本身相信我不用做过多的介绍,后端同学不管搞没搞过大数据,应该都多多少少听过。 如果没听过,简单说,spark和flink之于大数据,就好比vue和react之于前端,就好比spring家族之于java。 从20 ......
贡献者 源码 小事 贡献 flink

微软外服札记④——Spark中的那些坑...

Spark中的那些坑 Spark中的那些坑 前言 读取配置文件 时区陷阱 怪异的DayOfWeek substring陷阱 IP地址解析 枚举的数值 posexplode函数 为什么我的程序运行那么慢?慎用Count()和Show() 为什么我的程序运行那么慢?(2)优化、优化 其它 题外话 前言 ......
札记 Spark

一图看懂Hadoop中的MapReduce与Spark的区别:从单机数据系统到分布式数据系统经历了哪些?

今日博主思考了一个问题:Hadoop中的MapReduce与Spark他们之间到底有什么关系? 直到我看到了下面这张图 废话不多说先上图👇 我们知道,单机数据系统,在本地主机上针对数据有单机本地存储操作(localFS)和单机计算操作(SQL) 这是在数据量比较小方便在一台主机就完成任务的情况。 ......
数据 系统 分布式 单机 MapReduce
共288篇  :10/10页 首页上一页10下一页尾页