spark a7

Spark简介

# Spark Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache的顶级项目，2014年5月发布spark1.0，2016年7月发布spark2.0，2020年6月 ......

简介 Spark更新时间 2023-06-25

Spark基础

Spark是一种基于内存的快捷、通用、可扩展的大数据分析引擎 1. Spark模块 Spark Core: Spark核心模块，包含RDD、任务调度、内存管理、错误恢复、与存储系统交互等 Spark SQL：用于处理结构化数据的一个模块，提供了2个编程抽象：DataFrame DataSet，并且作 ......

基础 Spark更新时间 2023-06-24

如何在Databricks中使用Spark进行数据处理与分析

[toc] 1. 《如何在Databricks中使用Spark进行数据处理与分析》随着大数据时代的到来，数据处理与分析变得越来越重要。在数据处理与分析过程中，数据的存储、处理、分析和展示是不可或缺的关键步骤。在数据处理与分析中，Spark是一个强大的开源计算框架，它可以处理大规模分布式数据集，并提 ......

数据处理 Databricks 数据 Spark更新时间 2023-06-22

ARM(A7) wfi唤醒后...是执行中断处理程序还是后一条指令

记录WFI相关细节，以及如何让中断唤醒后先执行wfi后指令，再执行中断异常；或者优先执行中断异常，再执行wfi后指令。 1. ARM(A7)关于WFI的描述处理器可以通过执行WFI指令进入WFI低功耗状态。当硬件检测到WFI唤醒事件，WFI指令结束。 WFI唤醒事件无法被CPSR屏蔽位屏蔽。执 ......

指令还是程序 ARM wfi更新时间 2023-06-17

Apache Spark教程_编程入门自学教程_菜鸟教程-免费教程分享

## 教程简介 Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但 ......

教程菜鸟教程 Apache Spark更新时间 2023-06-16

基于Spark的大规模日志分析

摘要：本篇文章将从一个实际项目出发，分享如何使用 Spark 进行大规模日志分析，并通过代码演示加深读者的理解。本文分享自华为云社区《【实战经验分享】基于Spark的大规模日志分析【上进小菜猪大数据系列】》，作者：上进小菜猪。随着互联网的普及和应用范围的扩大，越来越多的应用场景需要对海量数据进行 ......

大规模 Spark 日志更新时间 2023-06-15

Flink 的 checkpoint 机制对比 spark 有什么不同和优势？

spark streaming 的 checkpoint 仅仅是针对 driver 的故障恢复做了数据和元数据的 checkpoint。而 flink 的checkpoint 机制要复杂很多，它采用的是轻量级的分布式快照，实现了每个算子的快照，及流动中的数据的快照。 ......

checkpoint 机制优势 Flink spark更新时间 2023-06-14

Spark基础

# Spark基础 [toc] ## 1 Spark简介 ### 1.1 Spark介绍 - 什么是Spark 1. Apache Spark is an open source cluster computing system that aims to make data analytics fa ......

基础 Spark更新时间 2023-06-07

docker安装spark

curl -L "https://github.com/docker/compose/releases/download/1.29.2/docker-compose-$(uname -s)-$(uname -m)" -o /usr/local/bin/docker-compose chmod +x ......

docker spark更新时间 2023-06-07

如何在window上使用spark

关于怎么使用spark在windos系统？下载anaconda下载spark怎么用呢？步骤1：打开anaconda prompt，激活步骤2：安装需要导入的东西步骤3：打开Jupyter Notebook，使用下面命令在一个py文件中步骤4：使用import导入成功使用 ......

window spark更新时间 2023-06-07

spark调用HTTP请求并返回数据落地到数仓(or数据库)

POM xml复制代码 com.alibaba fastjson spark-sql依赖 --> org.apache.spark spark-sql_${scala.tools.version} org.apache.spark spark-hive_${scala.tools.version} ......

数据数据库 spark HTTP更新时间 2023-06-07

RDS 、HDFS、 mapreduce 、spark 、hive、 hbase 、zookeeper 、kafka 、flume、mysql 安装时之间配置文件是如何依赖的？

这些技术是大数据领域的常用组件，它们之间的配置文件依赖关系如下： RDS是一种关系型数据库，可以独立安装和使用，不需要依赖其他组件。 HDFS是Hadoop分布式文件系统，通常与MapReduce一起使用。在Hadoop集群中，HDFS需要配置core-site.xml和hdfs-site.xml两 ......

mapreduce zookeeper 之间文件 hbase更新时间 2023-06-06

Spark消费Kafka

0. 前言之前先写了处理数据的spark，用文件读写测了一批数据，能跑出结果；今天调通了Kafka，拼在一起，没有半点输出，查了半天，发现是之前的处理部分出了问题，把一个不等号打成了等号，把数据全filter没了。很恐怖，我保证这段时间我没动过这段代码，但上次真的跑出东西了啊（尖叫 1. 配置流程 ......

Spark Kafka更新时间 2023-06-05

【价格全面下调】一片含税79元，双核A7@1.2GHz，-40℃~85℃真工业级！

自9个月前，创龙科技全志T113-i核心板(SOM-TLT113)推出之后，受到广大工业用户的高度关注，且超过300家企业已选用创龙科技T113-i核心板用于终端产品开发。为了让更多用户轻松选择T113-i平台，即日起，创龙科技T113-i核心板价格全面下调，一片含税就仅需79元（原价99元）！双 ......

工业价格 1.2 GHz A7更新时间 2023-06-05

Spark搭建

# Spark搭建 ## Local模式 > 主要用于本地开发测试 > > 本文档主要介绍如何在IDEA中配置Spark开发环境 * 打开IDEA，创建Maven项目 * 在IDEA设置中安装Scala插件 ![img](https://img2023.cnblogs.com/blog/286504 ......

Spark更新时间 2023-06-04

Spark集成Hive

### 命令行集成Hive 将hive中的`hive-site.xml`配置文件拷贝到spark配置文件目录下，仅需要以下内容 ```xml hive.metastore.warehouse.dir /user/hive/warehouse javax.jdo.option.ConnectionUR ......

Spark Hive更新时间 2023-06-02

Spark3.x扩展内容

### 3.0.0主要的新特性： 1. 在TPC-DS基准测试中，通过启用自适应查询执行、动态分区裁剪等其他优化措施，相比于Spark 2.4，性能提升了2倍 2. 兼容ANSI SQL 3. 对pandas API的重大改进，包括python类型hints及其他的pandas UDFs 4. 简化 ......

内容 Spark3 Spark更新时间 2023-06-02

为什么使用Flink替代Spark？

一，Flink是真正的流处理，延迟在毫秒级，Spark Streaming是微批，延迟在秒级。二，Flink可以处理事件时间，而Spark Streaming只能处理机器时间，无法保证时间语义的正确性。三，Flink的检查点算法比Spark Streaming更加灵活，性能更高。Spark St ......

Flink Spark更新时间 2023-06-02

Spark性能优化

### 性能优化分析一个计算任务的执行主要依赖于CPU、内存、带宽 Spark是一个基于内存的计算引擎，所以对它来说，影响最大的可能就是内存，一般我们的任务遇到了性能瓶颈大概率都是内存的问题，当然了CPU和带宽也可能会影响程序的性能，这个情况也不是没有的，只是比较少。 Spark性能优化，其实主要 ......

性能 Spark更新时间 2023-06-02

Spark扩展内容

### 宽依赖和窄依赖 - 窄依赖(Narrow Dependency)：指父RDD的每个分区只被子RDD的一个分区所使用，例如map、filter等这些算子一个RDD，对它的父RDD只有简单的一对一的关系，也就是说，RDD的每个partition仅仅依赖于父RDD中的一个partition，父R ......

内容 Spark更新时间 2023-06-02

Spark之RDD相关

### 创建RDD RDD是Spark编程的核心，在进行Spark编程时，首要任务是创建一个初始的RDD，这样就相当于设置了Spark应用程序的输入源数据然后在创建了初始的RDD之后，才可以通过Spark 提供的一些高阶函数，对这个RDD进行操作，来获取其它的RDD Spark提供三种创建RDD方 ......

Spark RDD更新时间 2023-06-02

Spark实战

### WordCount程序这个需求就是类似于我们在学习MapReduce的时候写的案例需求这样的：读取文件中的所有内容，计算每个单词出现的次数注意：由于Spark支持Java、Scala这些语言，目前在企业中大部分公司都是使用Scala语言进行开发，个别公司会使用java进行开发，为了加深 ......

实战 Spark更新时间 2023-06-02

Spark详解

### 什么是Spark Spark是一个用于大规模数据处理的统一计算引擎注意：Spark不仅仅可以做类似于MapReduce的离线数据计算，还可以做实时数据计算，并且它还可以实现类似于Hive的SQL计算，等等，所以说它是一个统一的计算引擎既然说到了Spark，那就不得不提一下Spark里面最 ......

Spark更新时间 2023-06-02

spark 常用参数和默认配置

##常用的Spark任务参数及其作用： 1. `spark.driver.memory`：设置driver进程使用的内存大小，默认为1g。 2. `spark.executor.memory`：设置每个executor进程使用的内存大小，默认为1g。 3. `spark.executor.cores ......

常用参数 spark更新时间 2023-06-01

【博学谷学习记录】超强总结，用心分享 | spark知识点总结2

【博学谷IT技术支持】 #### Action动作算子 * reduce: 通过func函数聚集RDD中的所有元素，这个功能必须是可交换且可并联的 * collect: 在驱动程序中，以数组的形式返回数据集的所有元素 * count: 返回RDD的元素个数 * first: 返回RDD的第一个元素（ ......

知识点知识 spark更新时间 2023-05-31

Windows 配置 Hadoop and Spark

一 JDK环境配置由于项目用的JDK17，所以单独给Hadoop配了JDK11，建议直接配置JAVA_HOME环境变量为JDK11，因为后面Spark需要用到JAVA_HOME 下载JDK11 链接：https://www.oracle.com/java/technologies/javase/j ......

Windows Hadoop Spark and更新时间 2023-05-31

Apache Spark 编程和优化

Assignment 2: Apache Spark Programming and OptimisationGroup Assignment (15%) 10/05/2023IntroductionThis is the second part of the practical assignmen ......

Apache Spark更新时间 2023-05-30

Spark入门看这篇就够了（万字长文）

本文已收录至Github，推荐阅读 👉 [Java随想录](https://github.com/ZhengShuHai/JavaRecord) 微信公众号：[Java随想录](https://mmbiz.qpic.cn/mmbiz_jpg/jC8rtGdWScMuzzTENRgicfnr91C5 ......

长文 Spark更新时间 2023-05-29

本地spark通过spark集群连接hive

最近在学习spark，上周将spark集群搭建起来了，今天在idea中创建了一个测试程序读取hive库中的数据，程序很简单，但是踩到一些坑，卡了四五个小时，做个记录。搭建Spark集群比较简单： 1、安装scala，scala版本要和spark使用的scala版本一致（因为这个问题卡了五六个小时） ......

spark 集群 hive更新时间 2023-05-27

Spark简介

（一）Spark介绍 Spark是一个通用的分布式数据处理引擎。通用：通用指的是Spark可以做很多事情。包括机器学习，数据流传输，交互分析，ETL，批处理，图计算等等等等都是Spark可以做到的。甚至可以说，你需要用数据实现的任何事情，你都可以用Spark试试看。分布式：指的是Spark处理数 ......

简介 Spark更新时间 2023-05-27

共226篇 :6/8页 首页上一页345678下一页尾页