Spark

基于Spark的大规模日志分析

摘要：本篇文章将从一个实际项目出发，分享如何使用 Spark 进行大规模日志分析，并通过代码演示加深读者的理解。本文分享自华为云社区《【实战经验分享】基于Spark的大规模日志分析【上进小菜猪大数据系列】》，作者：上进小菜猪。随着互联网的普及和应用范围的扩大，越来越多的应用场景需要对海量数据进行 ......

大规模 Spark 日志更新时间 2023-06-15

Flink 的 checkpoint 机制对比 spark 有什么不同和优势？

spark streaming 的 checkpoint 仅仅是针对 driver 的故障恢复做了数据和元数据的 checkpoint。而 flink 的checkpoint 机制要复杂很多，它采用的是轻量级的分布式快照，实现了每个算子的快照，及流动中的数据的快照。 ......

checkpoint 机制优势 Flink spark更新时间 2023-06-14

Spark基础

# Spark基础 [toc] ## 1 Spark简介 ### 1.1 Spark介绍 - 什么是Spark 1. Apache Spark is an open source cluster computing system that aims to make data analytics fa ......

基础 Spark更新时间 2023-06-07

docker安装spark

curl -L "https://github.com/docker/compose/releases/download/1.29.2/docker-compose-$(uname -s)-$(uname -m)" -o /usr/local/bin/docker-compose chmod +x ......

docker spark更新时间 2023-06-07

如何在window上使用spark

关于怎么使用spark在windos系统？下载anaconda下载spark怎么用呢？步骤1：打开anaconda prompt，激活步骤2：安装需要导入的东西步骤3：打开Jupyter Notebook，使用下面命令在一个py文件中步骤4：使用import导入成功使用 ......

window spark更新时间 2023-06-07

spark调用HTTP请求并返回数据落地到数仓(or数据库)

POM xml复制代码 com.alibaba fastjson spark-sql依赖 --> org.apache.spark spark-sql_${scala.tools.version} org.apache.spark spark-hive_${scala.tools.version} ......

数据数据库 spark HTTP更新时间 2023-06-07

RDS 、HDFS、 mapreduce 、spark 、hive、 hbase 、zookeeper 、kafka 、flume、mysql 安装时之间配置文件是如何依赖的？

这些技术是大数据领域的常用组件，它们之间的配置文件依赖关系如下： RDS是一种关系型数据库，可以独立安装和使用，不需要依赖其他组件。 HDFS是Hadoop分布式文件系统，通常与MapReduce一起使用。在Hadoop集群中，HDFS需要配置core-site.xml和hdfs-site.xml两 ......

mapreduce zookeeper 之间文件 hbase更新时间 2023-06-06

Spark消费Kafka

0. 前言之前先写了处理数据的spark，用文件读写测了一批数据，能跑出结果；今天调通了Kafka，拼在一起，没有半点输出，查了半天，发现是之前的处理部分出了问题，把一个不等号打成了等号，把数据全filter没了。很恐怖，我保证这段时间我没动过这段代码，但上次真的跑出东西了啊（尖叫 1. 配置流程 ......

Spark Kafka更新时间 2023-06-05

Spark搭建

# Spark搭建 ## Local模式 > 主要用于本地开发测试 > > 本文档主要介绍如何在IDEA中配置Spark开发环境 * 打开IDEA，创建Maven项目 * 在IDEA设置中安装Scala插件 ![img](https://img2023.cnblogs.com/blog/286504 ......

Spark更新时间 2023-06-04

Spark集成Hive

### 命令行集成Hive 将hive中的`hive-site.xml`配置文件拷贝到spark配置文件目录下，仅需要以下内容 ```xml hive.metastore.warehouse.dir /user/hive/warehouse javax.jdo.option.ConnectionUR ......

Spark Hive更新时间 2023-06-02

Spark3.x扩展内容

### 3.0.0主要的新特性： 1. 在TPC-DS基准测试中，通过启用自适应查询执行、动态分区裁剪等其他优化措施，相比于Spark 2.4，性能提升了2倍 2. 兼容ANSI SQL 3. 对pandas API的重大改进，包括python类型hints及其他的pandas UDFs 4. 简化 ......

内容 Spark3 Spark更新时间 2023-06-02

为什么使用Flink替代Spark？

一，Flink是真正的流处理，延迟在毫秒级，Spark Streaming是微批，延迟在秒级。二，Flink可以处理事件时间，而Spark Streaming只能处理机器时间，无法保证时间语义的正确性。三，Flink的检查点算法比Spark Streaming更加灵活，性能更高。Spark St ......

Flink Spark更新时间 2023-06-02

Spark性能优化

### 性能优化分析一个计算任务的执行主要依赖于CPU、内存、带宽 Spark是一个基于内存的计算引擎，所以对它来说，影响最大的可能就是内存，一般我们的任务遇到了性能瓶颈大概率都是内存的问题，当然了CPU和带宽也可能会影响程序的性能，这个情况也不是没有的，只是比较少。 Spark性能优化，其实主要 ......

性能 Spark更新时间 2023-06-02

Spark扩展内容

### 宽依赖和窄依赖 - 窄依赖(Narrow Dependency)：指父RDD的每个分区只被子RDD的一个分区所使用，例如map、filter等这些算子一个RDD，对它的父RDD只有简单的一对一的关系，也就是说，RDD的每个partition仅仅依赖于父RDD中的一个partition，父R ......

内容 Spark更新时间 2023-06-02

Spark之RDD相关

### 创建RDD RDD是Spark编程的核心，在进行Spark编程时，首要任务是创建一个初始的RDD，这样就相当于设置了Spark应用程序的输入源数据然后在创建了初始的RDD之后，才可以通过Spark 提供的一些高阶函数，对这个RDD进行操作，来获取其它的RDD Spark提供三种创建RDD方 ......

Spark RDD更新时间 2023-06-02

Spark实战

### WordCount程序这个需求就是类似于我们在学习MapReduce的时候写的案例需求这样的：读取文件中的所有内容，计算每个单词出现的次数注意：由于Spark支持Java、Scala这些语言，目前在企业中大部分公司都是使用Scala语言进行开发，个别公司会使用java进行开发，为了加深 ......

实战 Spark更新时间 2023-06-02

Spark详解

### 什么是Spark Spark是一个用于大规模数据处理的统一计算引擎注意：Spark不仅仅可以做类似于MapReduce的离线数据计算，还可以做实时数据计算，并且它还可以实现类似于Hive的SQL计算，等等，所以说它是一个统一的计算引擎既然说到了Spark，那就不得不提一下Spark里面最 ......

Spark更新时间 2023-06-02

spark 常用参数和默认配置

##常用的Spark任务参数及其作用： 1. `spark.driver.memory`：设置driver进程使用的内存大小，默认为1g。 2. `spark.executor.memory`：设置每个executor进程使用的内存大小，默认为1g。 3. `spark.executor.cores ......

常用参数 spark更新时间 2023-06-01

【博学谷学习记录】超强总结，用心分享 | spark知识点总结2

【博学谷IT技术支持】 #### Action动作算子 * reduce: 通过func函数聚集RDD中的所有元素，这个功能必须是可交换且可并联的 * collect: 在驱动程序中，以数组的形式返回数据集的所有元素 * count: 返回RDD的元素个数 * first: 返回RDD的第一个元素（ ......

知识点知识 spark更新时间 2023-05-31

Windows 配置 Hadoop and Spark

一 JDK环境配置由于项目用的JDK17，所以单独给Hadoop配了JDK11，建议直接配置JAVA_HOME环境变量为JDK11，因为后面Spark需要用到JAVA_HOME 下载JDK11 链接：https://www.oracle.com/java/technologies/javase/j ......

Windows Hadoop Spark and更新时间 2023-05-31

Apache Spark 编程和优化

Assignment 2: Apache Spark Programming and OptimisationGroup Assignment (15%) 10/05/2023IntroductionThis is the second part of the practical assignmen ......

Apache Spark更新时间 2023-05-30

Spark入门看这篇就够了（万字长文）

本文已收录至Github，推荐阅读 👉 [Java随想录](https://github.com/ZhengShuHai/JavaRecord) 微信公众号：[Java随想录](https://mmbiz.qpic.cn/mmbiz_jpg/jC8rtGdWScMuzzTENRgicfnr91C5 ......

长文 Spark更新时间 2023-05-29

本地spark通过spark集群连接hive

最近在学习spark，上周将spark集群搭建起来了，今天在idea中创建了一个测试程序读取hive库中的数据，程序很简单，但是踩到一些坑，卡了四五个小时，做个记录。搭建Spark集群比较简单： 1、安装scala，scala版本要和spark使用的scala版本一致（因为这个问题卡了五六个小时） ......

spark 集群 hive更新时间 2023-05-27

Spark简介

（一）Spark介绍 Spark是一个通用的分布式数据处理引擎。通用：通用指的是Spark可以做很多事情。包括机器学习，数据流传输，交互分析，ETL，批处理，图计算等等等等都是Spark可以做到的。甚至可以说，你需要用数据实现的任何事情，你都可以用Spark试试看。分布式：指的是Spark处理数 ......

简介 Spark更新时间 2023-05-27

在本地运行spark程序，出现Scala module 2.13.4 requires Jackson Databind version >= 2.13.0 and < 2.14.0 - Found jackson-databind version 2.12.7

这是jackson多版本题 , 我们需要屏蔽所有hadoop 组件中的Jackson，在pom.xml文件里修改：添加 <exclusions> <exclusion> <groupId>com.fasterxml.jackson.module</groupId> <artifactId>*</a ......

version jackson-databind Databind databind requires更新时间 2023-05-25

共215篇 :6/8页 首页上一页345678下一页尾页

526互联