spark a7

在本地运行spark程序，出现Scala module 2.13.4 requires Jackson Databind version >= 2.13.0 and < 2.14.0 - Found jackson-databind version 2.12.7

这是jackson多版本题 , 我们需要屏蔽所有hadoop 组件中的Jackson，在pom.xml文件里修改：添加 <exclusions> <exclusion> <groupId>com.fasterxml.jackson.module</groupId> <artifactId>*</a ......

version jackson-databind Databind databind requires更新时间 2023-05-25

【博学谷学习记录】超强总结，用心分享 | spark知识点总结1

【博学谷IT技术支持】 ## Spark基础 ### spark的特点 * 运行速度快 ```js 提供了一个全新的数据结构哦RDD(弹性的分布式数据集) 整个Spark是基于线程来运行的，线程的启动和销毁优于进程 ``` * 易用性 ```js spark 提供了多种操作语言的API，python ......

知识点知识 spark更新时间 2023-05-23

提高数据的安全性和可控性，数栈基于 Ranger 实现的 Spark SQL 权限控制实践之路

在企业级应用中，数据的安全性和隐私保护是极其重要的。Spark 作为数栈底层计算引擎之一，必须确保数据只能被授权的人员访问，避免出现数据泄露和滥用的情况。为了实现Spark SQL 对数据的精细化管理及提高数据的安全性和可控性，数栈基于 Apache Ranger 实现了 Spark SQL 对数据 ......

可控性安全性权限数据 Ranger更新时间 2023-05-17

spark资源动态调整--内容搬运，周知

动态资源分配 Spark的动态资源分配就是executor数据量的动态增减，具体的增加和删除数量根据业务的实际需要动态的调整。具体表现为：如果executor数据量不够，则增加数量，如果executor在一段时间内空闲，则移除这个executor。动态增加executor配置项：spark.dyn ......

动态内容资源 spark更新时间 2023-05-09

Hudi学习笔记4 - Hudi配置之Spark配置

Spark Datasource Configs 读配置 |配置项|是否必须|默认值|配置说明| |:-|:-|:-|:-| |as.of.instant|Y|N/A|0.9.0 版本新增，时间旅行查询从哪儿开始，有两种格式的值：yyyyMMddHHmmss 和 yyyy-MM-dd HH:mm:s ......

Hudi 笔记 Spark更新时间 2023-05-08

[HiBench] 安装HiBench，测试在Spark上跑PageRank与修改源码测试

[HiBench] 安装HiBench，测试在Spark上跑PageRank与修改源码测试背景：我想在HiBench上测试在Spark上跑PageRank性能，并想要修改PageRank的源码进行测试。本来，HiBench在README里写的已经挺清楚的了，直接照着做就行。奈何我用的服务器没有珂学 ......

HiBench 源码 PageRank Spark更新时间 2023-05-06

68元工业级双核A7,全新T113核心板震撼上市!

万象奥科全新T113核心板震撼上市，仅68元、工业级品质、双核A7处理器、外设丰富，诠释极致性价比！参数速递 1.全志T113工业级处理器，主频1.2GHz 2.双核Cortex-A7+玄铁C906 RISC-V + HiFi4 DSP异构多核 3.内存128MB/256MB/512MB，存储25 ......

核心全新工业 T113 113更新时间 2023-05-05

Access to XMLHttpRequest at 'file:///xxx/%C3%A7%C2%9C' from origin 'null' has been blocked by CORS policy: Cross origin requests are only supported for protocol schemes:

Access to XMLHttpRequest at 'file:///xxx/%C3%A7%C2%9C' from origin 'null' has been blocked by CORS policy: Cross origin requests are only supported fo ......

origin 39 XMLHttpRequest supported requests更新时间 2023-05-05

Spark安装部署与基础实践

安装 java 运行命令 sudo apt install openjdk-8-jdk-headless 进行安装运行java -version测试安装是否成功，结果如下，安装成功安装Spark 运行wget http://mirror.bit.edu.cn/apache/spark/spark ......

基础 Spark更新时间 2023-04-30

hive on spark报错

Error in query: Detected implicit cartesian product for LEFT OUTER join between logical plansUnion Join condition is missing or trivial.Either: use th ......

spark hive on更新时间 2023-04-28

Windows平台下单机Spark环境搭建

为了在有限的资源上学习大数据处理与分析技术，借鉴Linux以及部分网上的教程，在Windows10平台搭建Spark环境。本文将简单记录搭建流程以及其中遇到的坑。 Spark的部署模式主要有四种： Local模式（单机模式） Standalone模式（使用Spark自带的简单集群管理器） YARN模 ......

单机 Windows 环境 Spark 平台更新时间 2023-04-27

在CentOS上安装和配置Spark Standalone

1.确认Java已安装在CentOS上运行以下命令以确认Java是否已安装： java -version 如果Java未安装，请按照以下步骤进行安装： sudo yum install java-1.8.0-openjdk-develx 修改/etc/profile文件，末尾添加 export J ......

Standalone CentOS Spark更新时间 2023-04-25

使用 OpenCV、Kafka 和 Spark 技术进行视频流分析

核心要点为了可靠且高效地处理大规模的视频流数据，需要有一个可扩展、能容错、松耦合的分布式系统；本文中的示例应用使用开源的技术来构建这样的系统，这些技术包括 OpenCV、Kafka 和 Spark。另外，还可以使用 Amazon S3 或 HDFS 进行存储；该系统包含了三个主要的组件：视频流 ......

视频流 OpenCV Kafka Spark 技术更新时间 2023-04-24

Video Stream Analytics Using OpenCV, Kafka and Spark Technologies

Key Takeaways For reliable handling and efficient processing of large scale video stream data, there is a need for a scalable, fault tolerant and loos ......

Technologies Analytics Stream OpenCV Video更新时间 2023-04-24

ARM A7 PMU+perf简单记录

关键词：pmu，perf等等。简单记录PMU及其内核驱动，内核中perf相关内容，以及两者是如何关联的。然后记录perf应用是如何和PMU硬件关联的，以及如何使用perf查看PMU结果。 A7 PMU概要 PMU作为一个扩展功能，是一种非侵入式的调试组件。对PMU寄存器的访问可以通过CP15协处 ......

perf ARM PMU A7更新时间 2023-04-23

Hive On Spark调优

第1章集群环境概述 1.1 集群配置概述本课程所用集群由5台节点构成其中2台为master节点：用于部署HDFS的NameNode Yarn的ResourceManager 另外3台为worker节点，用于部署HDFS的DataNode、Yarn的NodeManager等角色。 Master ......

Spark Hive On更新时间 2023-04-22

spark

首先安装JAVA，SCALA scala安装解压包 [root@master ~]# tar -zxvf scala-2.11.8.tgz -C /usr/local/src/ 配置环境变量 #SCALA_HOME export SCALA_HOME=/usr/local/src/scala ex ......

spark更新时间 2023-04-20

Spark持久化

众所周知，RDD只会保留血缘关系，不存储计算结果。如果想要让计算结果持久化存储，那就要引入cache和persist方法。提前感受变化禁用持久化 package com.pzb.rdd.persist import org.apache.spark.rdd.RDD import org.apac ......

Spark更新时间 2023-04-20

Spark算子总结

Spark的算子分为两大类：transform（转换算子）和action（行动算子） transform算子：map、mapPartitions、mapPartitionsWithIndex、flatMap、glom、groupBy、filter、sample、distinct、coalesce、r ......

算子 Spark更新时间 2023-04-20

解决Spark读取tmp结尾的文件报错的问题

业务场景 flume采集文件到hdfs中，在采集中的文件会添加.tmp后缀。一个批次完成提交后，会将.tmp后缀重名名，将tmp去掉。所以，当Spark程序读取到该hive外部表映射的路径时，在出现找不到xxx.tmp文件的问题出现。解决思路： Hdfs提供了读取文件筛选的接口PathFilte ......

文件问题 Spark tmp更新时间 2023-04-14

Spark高级

Spark 宽依赖和窄依赖窄依赖(Narrow Dependency)：指父RDD的每个分区只被子RDD的一个分区所使用，例如map、 filter等宽依赖(Shuffle Dependency)：父RDD的每个分区都可能被子RDD的多个分区使用，例如groupByKey、 redu ......

Spark更新时间 2023-04-13

Java语言在Spark3.2.4集群中使用Spark MLlib库完成XGboost算法

一、概述 XGBoost是一种基于决策树的集成学习算法，它在处理结构化数据方面表现优异。相比其他算法，XGBoost能够处理大量特征和样本，并且支持通过正则化控制模型的复杂度。XGBoost也可以自动进行特征选择并对缺失值进行处理。二、代码实现步骤 1、导入相关库 import org.apach ......

Spark 集群算法 XGboost 语言更新时间 2023-04-12

Java语言在Spark3.2.4集群中使用Spark MLlib库完成朴素贝叶斯分类器

一、贝叶斯定理贝叶斯定理是关于随机事件A和B的条件概率，生活中，我们可能很容易知道P（A|B），但是我需要求解P（B|A），学习了贝叶斯定理，就可以解决这类问题，计算公式如下： P（A）是A的先验概率 P（B）是B的先验概率 P（A|B）是A的后验概率（已经知道B发生过了） P（B|A）是B的后验 ......

Spark 集群语言 Spark3 MLlib更新时间 2023-04-12

spark 20220804笔记本3

......

20220804 笔记本笔记 spark更新时间 2023-04-11

分布式计算技术（上）：经典计算框架MapReduce、Spark 解析

当一个计算任务过于复杂不能被一台服务器独立完成的时候，我们就需要分布式计算。分布式计算技术将一个大型任务切分为多个更小的任务，用多台计算机通过网络组装起来后，将每个小任务交给一些服务器来独立完成，最终完成这个复杂的计算任务。本篇我们介绍两个经典的计算框架MapReduce和Spark。 — MapR ......

分布式 MapReduce 框架经典 Spark更新时间 2023-04-10

spark 的几个简单实例

最近写了几个简单的spark structured streaming 的代码实例。目的是熟悉spark 开发环境搭建， spark 代码开发流程。开发环境：系统：win 11 java : 1.8 scala:2.13 工具：idea 2022.2 ，maven 3, git 2.37 sp ......

实例 spark更新时间 2023-04-06

Spark on Yarn配置

1、Spark on Yarn配置 1.)在搭建好的Spark上修改spark-env.sh文件： # vim $SPARK_HOME/conf/spark-env.sh 添加以下配置： export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop export ......

Spark Yarn on更新时间 2023-04-06

Spark学习笔记01

1、spark程序开发完成后，打包成jar包。如何将jar包分发到 spark集群？1、启动集群启动master ./sbin/start-master.sh 启动worker ./bin/spark-class org.apache.spark.deploy.worker.worker spa ......

笔记 Spark更新时间 2023-04-05

Hadoop、Hive和Spark的关系

大数据技术生态中，Hadoop、Hive、Spark是什么关系？| 通俗易懂科普向 Hadoop、Hive和Spark，都是大数据相关的系统和技术。大数据也是数据管理系统的范畴。数据管理系统涉及两个方面的问题，一个是数据怎么存储？一个是数据怎么计算？为了方便理解，我们需要从单机的时代来讲解。在 ......

Hadoop Spark Hive更新时间 2023-04-05

大数据经典论文解读 - Spark

Spark Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing 可看作一个支持多轮迭代的MapReduce模型，但是引入了 RDD 这样的函数式对象的数据集概念。Sp ......

经典数据论文 Spark更新时间 2023-04-04

共226篇 :7/8页 首页上一页45678下一页尾页