mapreduce spark

Spark运行模式之——local模式与Standalone模式

Spark有多种运行模式，可以运行在一台机器上，称为本地（单机）模式——local模式；可以使用Spark自带的资源调度系统，称为Spark Standalone模式；也可以以YARN或Mesos作为底层资源调度系统以分布式的方式在集群中运行，称为Spark On YARN模式。本文就介绍前两种运行 ......

模式 Standalone Spark local更新时间 2024-01-07

spark小记

Spark介绍 1、Spark 是一种由 Scala 语言开发的基于内存的快速/通用/可扩展的大数据分析计算引擎。 2、Spark Core中提供了Spark最基础与最核心的功能。Spark SQL 是 Spark 用来操作结构化数据的组件。 3、MLlib 是 Spark 提供的一个机器学习算法库 ......

小记 spark更新时间 2024-01-06

spark小记

小记 spark更新时间 2024-01-04

spark-scala-mysql 编译报错

用spark接收mysql数据，编译时报错 java: cannot access scala.Serializable class file for scala.Serializable not found 问题原因： scala 2.13及以上版本，缺少类 Serializable 解决：使用 ......

spark-scala-mysql spark scala mysql更新时间 2024-01-04

云计算技术与应用之实验六-分布式文件系统算法—MapReduce

实验六-分布式文件系统算法—MapReduce 一、实验目的掌握 MapReduce 算法的设计与实现。二、实验原理和内容 1.原理： MapReduce 的核心思想是“分而治之”，也就是把一个大的数据集拆分成多个小数据集在多台机器上并行处理。一个大的 MapReduce 作业，首先会被拆分 ......

分布式算法 MapReduce 文件系统更新时间 2024-01-03

Spark Yarn模式

独立部署（Standalone）模式由 Spark 自身提供计算资源，无需其他框架提供资源。这种方式降低了和其他第三方资源框架的耦合性，独立性非常强。但是Spark 主要是计算框架，而不是资源调度框架，所以本身提供的资源调度并不是它的强项，所以还是和其他专业的资源调度框架集成会更靠谱一些。在国内工 ......

模式 Spark Yarn更新时间 2024-01-02

Spark 3.5.0 高可用部署

1.下载Spark 3.5.0 https://spark.apache.org/downloads.html 2.安装JDK Linux 安装Openjdk 3.安装Hadoop Hadoop-3.3.6分布式集群搭建步骤 4.安装Zookeeper ZooKeeper 3.9.1 集群模式安装 ......

Spark更新时间 2024-01-02

Spark与RDD是什么

大数据框架可不是只有Hadoop哦，还有一个非常厉害的框架，它就是——Spark。一：什么是Spark Apache Spark是一个快速通用的集群计算系统，是一种与Hadoop相似的开源集群计算环境，但是Spark在一些工作负载方面表现得更加优越。它提供了Java、Scala、Python和R的 ......

Spark RDD更新时间 2024-01-02

Spark 3.5.0 独立部署(Standalone)模式

1.下载Spark 3.5.0 https://spark.apache.org/downloads.html 2.安装JDK Linux 安装Openjdk 3.安装Hadoop Hadoop-3.3.6分布式集群搭建步骤 4.解压 mkdir /usr/spark tar -zxvf spark ......

Standalone 模式 Spark更新时间 2023-12-31

spark与scala版本对应查看

https://mvnrepository.com/artifact/org.apache.spark/spark-core ......

版本 spark scala更新时间 2023-12-31

为什么Spark比MapReduce快？

1、内存和磁盘使用方面 Spark vs MapReduce不等于内存 vs 磁盘，Spark和MapReduce的计算都发生在内存中，区别在于： MapReduce需要将每次计算的结果写入磁盘，然后再从磁盘读取数据，从而导致了频繁的磁盘IO。 Spark通常不需要将计算的结果写入磁盘，可以在内存中 ......

MapReduce Spark更新时间 2023-12-30

华为云耀云服务器L实例-大数据学习-MapReduce&Yarn的实操

华为云耀云服务器L实例-大数据学习-MapReduce&Yarn的实操产品官网：https://www.huaweicloud.com/product/hecs-light.html 今天我们采用可靠更安全、智能不卡顿、价优随心用、上手更简单、管理特省心的华为云耀云服务器L实例为例，继续介绍Map ......

MapReduce 实例服务器数据 Yarn更新时间 2023-12-29

华为云耀云服务器L实例-大数据学习-MapReduce&Yarn的部署

华为云耀云服务器L实例-大数据学习-MapReduce&Yarn的部署产品官网：https://www.huaweicloud.com/product/hecs-light.html 今天我们采用可靠更安全、智能不卡顿、价优随心用、上手更简单、管理特省心的华为云耀云服务器L实例为例，介绍MapRe ......

MapReduce 实例服务器数据 Yarn更新时间 2023-12-29

spark 3.0新特性

一、Adaptive Query Execution 自适应查询 https://blog.51cto.com/u_12865/7338853 二、Dynamic Partion Pruning 动态裁剪分区 Apache Spark 3.0 动态分区裁剪（Dynamic Partition Pru ......

特性 spark 3.0更新时间 2023-12-28

详解Java编写并运行spark应用程序的方法WordCount_tyt2023

SparkContext：通往Spark集群的入口点，用于创建RDD和广播变量等 RDD：弹性分布式数据集，Spark应用程序的核心抽象 Transformation：操作RDD生成新的RDD，如map、filter等 Action：对RDD的操作，如count、collect等环境：Spark ......

WordCount_tyt 应用程序 WordCount 程序方法更新时间 2023-12-28

Spark 开发与应用_tyt2023

本实验基于MRS环境，主要介绍如何利用Spark RDD的常用算子进行简单统计分析，以及如何利用SparkSQL进行结构化批处理。购买弹性公网IP 购买MRS集群选择“自定义购买” 区域：华北—北京四计费模式：按需计费集群名称：mrs-bigdata 版本类型：普通版集群版本：MRS 3. ......

Spark 2023 tyt更新时间 2023-12-27

Spark写hive insertInto和saveAsTable的差别和错误

insertInto必须保证源表字段顺序和hive表字段顺序一致，不然会插入乱序，如果字段数不一致，会报错 saveAsTable append模式下，如果字段数不一致，会报错，overwrite模式下，会重建表如果是外部表，已经存在了数据，saveAsTable会报错 org.apache.sp ......

saveAsTable insertInto 差别错误 Spark更新时间 2023-12-23

Hago 的 Spark on ACK 实践

长期以来，Hago 都是在 IDC 里运行大数据任务，以支撑上面的许多产品，从 2022 年开始，Hago 开始将大数据业务迁移上云，并以 Spark on ACK 的形式来运行，本文主要针对迁移过程进行介绍。 ......

Spark Hago ACK on更新时间 2023-12-23

Spark常用Sql

一、日期处理 1、查询当前日期 SELECT current_date() 2023-12-22 2、查询当前时间戳 select current_timestamp() 2023-12-22 14:50:19.213 3、查询当前时间戳-1小时 select current_timestamp() ......

常用 Spark Sql更新时间 2023-12-22

Hive和Spark生产集群搭建

1.环境准备 1.1 版本选择序号 bigdata-001 bigdata-002 bigdata-003 bigdata-004 bigdata-005 MySQL-8.0.31 mysql Datax Datax Datax Datax Datax Datax Spark-3.3.1 Spar ......

集群 Spark Hive更新时间 2023-12-21

使用sqoop一直卡在：mapreduce.Job: Running job: job_1703173956074_0001

修改hadoop配置 vi /usr/local/software/hadoop-2.9.2/etc/hadoop/yarn-site.xml # 添加如下 <configuration> <property> <name>yarn.nodemanager.resource.memory-mb</n ......

1703173956074 mapreduce job Running sqoop更新时间 2023-12-21

MapReduce入门案例——wordcount词频统计分析

说实话，wordcount这个案例挺土的，但是作为入门案例，还是值得学习的，本篇就通过MapReduce来对词频进行一个统计分析，并写出核心代码。一：案例介绍： Input : 读取文本文件； Splitting : 将文件按照文件块(block)或者行进行拆分，此时得到的K1为偏移量，V1表示对 ......

词频统计分析 MapReduce wordcount 案例更新时间 2023-12-19

MapReduce基本介绍

MapReduce也是Hadoop里的核心内容，非常著名，五星级必须要掌握哦，本篇文章就先抛砖引玉，对MapReduce做一个基本介绍。到底什么是MapReduce Hadoop MapReduce 是一个分布式计算框架，用于编写批处理应用程序。编写好的程序可以提交到 Hadoop 集群上用于并行 ......

MapReduce更新时间 2023-12-19

安装spark启动及遇到的问题

参考博主：Ubuntu下安装Spark3.2.0教程_ubuntu火狐浏览器怎么下载spark-CSDN博客在这个博主的内容中安装spark，要注意滴是：这里同时修改了spark-evn.sh的文件名称记得修改，然后下面运行的时候我啥结果也没有，后面直接不管了打算执行命令：spark-shel ......

问题 spark更新时间 2023-12-18

Hadoop MapReduce框架原理

1.InputFormat数据输入 1.数据切片与MapTask并行度决定机制一个Job的Map阶段并行度由客户端在提交Job时的切片数决定每一个Split切片分配一个MapTask并行实例处理默认情况下，切片大小 = BlockSize 切片时不考虑数据集整体，而是逐个针对每一个文件单独切片 ......

MapReduce 框架原理 Hadoop更新时间 2023-12-14

Hadoop MapReduce编程规范

用户编写的程序分为三个部分:Mapper、Reducer和Driver 1.Mapper阶段用户自定义的Mapper要继承自己的父类 Mapper的输入数据是KV对的形式（KV的类型可自定义） Mapper中的业务逻辑写在map()方法中 Mapper的输出数据是KV对的形式（KV的类型可自定义） ......

MapReduce Hadoop更新时间 2023-12-13

[spark] coalesce() 和 repartition()的区别

coalesce(1) 的主要作用是将数据合并到尽可能少的分区中，而 repartition(1) 则是将数据随机重分区为一个分区。这使得 coalesce(1) 相对而言更加高效，因为它减少了数据移动的次数，只需要在当前 Executor 上将所有分区的数据都收集到当前应用程序的单个 Execut ......

repartition coalesce spark更新时间 2023-12-13

Iceberg Spark存储过程-表治理工具

一、简介存储过程（Procedure）是数据库领域的概念，类似于编程语言中的方法或函数，是对实现特定操作的封装，原生的 Spark SQL 中是不支持存储过程的，Iceberg 0.11.0版本之后对其进行了扩展，并提供了部分存储过程的实现。Iceberg 中提供的所有存储过程都在system n ......

过程 Iceberg 工具 Spark更新时间 2023-12-08

实验五MapReduce 实验

今天完成了MapReduce实验，参照这篇博主的文章，实验5 MapReduce初级编程实践（1）——编程实现文件合并和去重操作_mapreduce z.q.feng csdn-CSDN博客出现的错误是，jar包未打包成功，一定要去java代码目录下面看看有没有成工打包好jar包，不成功在目录下对 ......

MapReduce更新时间 2023-12-06

大数据实验（MapReduce编程2）

代码参考： MapReduce实验 - CodeDancing - 博客园 (cnblogs.com) 编程实现总代码：编译工具：IDEA 说明： 1.完成不同的任务的时候，需要修改cmd的值 2.conf.set("fs.default.name","hdfs://node1:8020");换上 ......

据实大数 MapReduce更新时间 2023-12-05

共295篇 :2/10页 首页上一页12345下一页尾页