spark

每日随笔——Spark

今天学习如何使用Spark技术。一、下载spark 下载spark-3.4.0-bin-without-hadoop.tgz文件，百度网盘链接：https://pan.baidu.com/s/181shkgg-i0WEytQMqeeqxA（提取码：9ekc ）二、安装hadoop和Javajdk ......

随笔 Spark更新时间 2023-10-28

spark on k8s环境下不重新打镜像实现celeborn client或其他底层jar包升级

博客园首发，转载请注明地址：https://www.cnblogs.com/tzxxh/p/17792469.html 前言 Apache Kyuubi 是一个分布式和多租户网关，用于在数据仓库和湖仓上提供无服务器 SQL。Apache Celeborn 是一个Remote Shuffle Serv ......

底层 celeborn 镜像环境 client更新时间 2023-10-27

spark使用记录

单词统计的示例 1：客户端登录 2：使用链式编程输出结果文件 sc.textFile("hdfs://bda1node01.sqtxj.com:8020/txj/resources/chedai/chedai.csv").flatMap(_.split(",")).map((_,1)).reduce ......

spark更新时间 2023-10-27

spark学习

Spark运行特点：每个Application获取专属的executor进程，该进程在Application期间一直驻留，并以多线程方式运行Task。这种Application隔离机制是有优势的，无论是从调度角度看（每个Driver调度他自己的任务），还是从运行角度看（来自不同Applicatio ......

spark更新时间 2023-10-26

火山引擎 LAS Spark 升级：揭秘 Bucket 优化技术

更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群文章介绍了 Bucket 优化技术及其在实际业务中的应用，包括 Spark Bucket 的基本原理，重点阐述了火山引擎湖仓一体分析服务 LAS（下文以 LAS 指代）Spark 对 Bucket 优化的功能增强， ......

火山引擎 Bucket Spark 技术更新时间 2023-10-25

【1】基于docker搭建hadoop+hive+spark+hbase+zookeeper+scale集群

1、设置主机上的虚拟缓存当本地内存不足时，可以使用虚拟内存将一些内存数据转移到硬盘上，从而扩展计算机的内存容量。这样可以让计算机运行更复杂、更占用内存的程序，不会出现内存不足的情况。减轻物理存储器不足的压力，设置虚拟内存可以在内存不够的情况下将缓存一时放在硬盘上，解决内存不足问题。通过虚拟内存， ......

集群 zookeeper docker hadoop hbase更新时间 2023-10-24

基于docker容器，搭建hadoop+spark+hive+hbase+Zookeeper Scala集群

1.安装Docker和Docker Compose 2.下载镜像 docker pull bde2020/hadoop-base:2.0.0-hadoop3.2.1-java8 docker pull bde2020/hadoop-namenode:2.0.0-hadoop3.2.1-java8 d ......

集群容器 Zookeeper docker hadoop更新时间 2023-10-24

虚拟机的Spark安装步骤

相关代码截图 //解压压缩包 tar -zxvf spark-3.2.4-bin-hadoop3.2.tgz //配置环境变量 vi /etc/profile //添加内容 # spark $PARK_HOME=/export/server/spark-3.2.4-bin-hadoop3.2 exp ......

步骤 Spark更新时间 2023-10-23

报错Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create Spark client for Spark session 768047b9-c7f7-459f-9220-5d8d7bdabefe)

在执行hive on spark的时候上面的错误可能有以下几种问题： 1.版本问题不匹配 2.时间参数问题设置的参数太小了 3.在hive-site.xml文件中没有配置spark 的home 我的问题属于第一个问题导致没有跑成功当时也在想是不是内存出现了问题 ......

Failed Spark HiveException exception 7bdabefe更新时间 2023-10-22

【大数据】Spark On Yarn 理解（图文）

基本架构 1：ResourceManager（资源管理器）：ResourceManager是YARN的核心组件，负责管理和分配集群资源。它接收来自Spark应用程序的资源请求，并根据可用资源情况进行分配和调度。 2：NodeManager（节点管理器）：NodeManager是每个节点上的代理程序， ......

图文数据 Spark Yarn On更新时间 2023-10-19

【大数据】Spark部署与启动（文档）

Python 环境准备 Anaconda3： https://pan.baidu.com/s/1e4Wx48RsW0Pm_saotxTW4A?pwd=66ki [root@test1 ~]# cd /export/ [root@test1 export]# rz # 上传源文件包 [root@tes ......

文档数据 Spark更新时间 2023-10-19

LAS Spark+云原生：数据分析全新解决方案

更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群随着数据规模的迅速增长和数据处理需求的不断演进，云原生架构和湖仓分析成为了现代数据处理的重要趋势。在这个数字化时代，企业面临着海量数据的挑战和机遇，而构建可扩展、灵活且高效的数据分析平台成为了迫切的需求。文章主要 ......

数据分析解决方案全新方案数据更新时间 2023-10-18

spark sql使用--创建SparkDataFrame

Spark SQL模块这个模块是Spark中用来处理结构化数据的，提供一个叫SparkDataFrame的东西并且自动解析为分布式SQL查询数据。在RDD阶段，程序的执行入口对象是： SparkContext 在Spark 2.0后，推出了SparkSession对象，作为Spark编码的统一入 ......

SparkDataFrame spark sql更新时间 2023-10-17

Spark入门指南：从基础概念到实践应用全解析

在这个数据驱动的时代，信息的处理和分析变得越来越重要。而在众多的大数据处理框架中，Apache Spark 以其独特的优势脱颖而出 ......

入门指南概念基础指南 Spark更新时间 2023-10-15

为什么物联网大数据平台，使用TDengine，可以不要Redis、Kafka和Spark等软件？

为什么物联网大数据平台，使用TDengine，可以不要Redis、Kafka和Spark等软件？ - TDengine | 涛思数据 (taosdata.com) TDengine是一高效的时序空间大数据处理引擎，因为充分利用物联网、车联网、工业互联网等场景的数据特点并做了很多优化，因此性能上远胜通 ......

TDengine 数据 Redis Kafka Spark更新时间 2023-10-12

LAS Spark 在 TPC-DS 的优化揭秘

更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群文章主要介绍了火山引擎湖仓一体分析服务 LAS Spark（下文以 LAS Spark 指代）在 TPC-DS 上的性能突破与优化策略。TPC-DS 是一个模拟复杂数据仓库环境的测试基准，LAS Spark 通过采 ......

TPC-DS Spark LAS TPC DS更新时间 2023-10-11

1. Spark RDD

一、Spark RDD 1. RDD是什么 RDD，即弹性分布式数据集(Resilient Distributed Dataset)，是Spark对数据的抽象，本质上是分布在多个节点上的数据集合。弹性是指当内存不够时，数据可以持久化到磁盘，并且RDD具有高效的容错能力。分布式数据集是指一个数据集 ......

Spark RDD更新时间 2023-10-09

Spark 使用遇到的问题

Spark 使用遇到的问题环境信息 IDEA版本：Build #IU-232.8660.185, built on July 26, 2023 系统版本：Macos 14.0 Docker版本：一、Docker运行Spark集群这里使用bitnami发行的spark image github文 ......

问题 Spark更新时间 2023-10-08

Spark相关学习之基础认识

1、Spark相关概念介绍是一个分布式计算框架； 2、Spark的框架模块 3、Spark运行模式 Spark总结概述： 4、Local模式 ......

基础 Spark更新时间 2023-10-07

Spark算子实现wordCount的十种方法

//groupBy def wordCount1(sc:SparkContext) = { val rdd = sc.makeRDD(List("hello scala","hello spark")) val words: RDD[String] = rdd.flatMap(_.split(" " ......

算子 wordCount 方法 Spark更新时间 2023-10-03

MapReduce和Spark读取HBase快照表

1.概述随着大数据技术的不断发展，处理海量数据的需求变得愈发迫切。MapReduce作为一种分布式计算模型，为处理大规模数据提供了有效的解决方案。在这篇博客中，我们将探讨如何使用MapReduce框架读取快照表（Snapshot Table）的数据。快照表是一种记录某一时刻系统状态的表格，通过Ma ......

快照 MapReduce HBase Spark更新时间 2023-09-30

spark环境部署之wordCount初体验

一.安装spark 1.1 下载并解压官方下载地址：http://spark.apache.org/downloads.html ，选择 Spark 版本和对应的 Hadoop 版本后再下载：解压安装包 # tar -zxvf spark-2.2.3-bin-hadoop2.6.tgz 1.2 ......

wordCount 环境 spark更新时间 2023-09-27

大数据 | Spark基本使用示例

欢迎参观我的博客，一个Vue 与 SpringBoot结合的产物：https://poetize.cn 博客：https://gitee.com/littledokey/poetize-vue2.git 聊天室：https://gitee.com/littledokey/poetize-im-vue ......

示例数据 Spark更新时间 2023-09-27

本地测试Spark的svm算法

上一篇介绍了逻辑回归算法，发现分类效果不好，通过这次的svm发现是因为训练数据不行，于是网上找了部分训练数据，发现实际上分类效果还可以。训练数据，第一个值是标签，下面的数据是某种花的相关特征。 1|5.1,3.5,1.4,0.2 1|4.9,3,1.4,0.2 1|4.7,3.2,1.3,0.2 ......

算法 Spark svm更新时间 2023-09-26

本地测试Spark的逻辑回归算法

本地小数据量测试了一下Spark的LogisticRegressionWithSGD算法，效果不尽如人意。数据样例如下，竖杠前的0,1代表两种类型，后面逗号隔开的是两个特征，两个特征只要有一个大于等于0.6就会被分为1这一类，否则就是0。 1|0.3,0.6 0|0.2,0.1 1|0.5,0.6 ......

算法逻辑 Spark更新时间 2023-09-25

图解Spark排序算子sortBy的核心源码

原创/朱季谦一、案例说明以前刚开始学习Spark的时候，在练习排序算子sortBy的时候，曾发现一个有趣的现象是，在使用排序算子sortBy后直接打印的话，发现打印的结果是乱序的，并没有出现完整排序。例如，有一个包含多个（姓名，金额）结构的List数据，将这些数据按照金额降序排序时，代码及打印 ......

算子源码核心 sortBy Spark更新时间 2023-09-18

Spark基础——Scala1.3

For循环控制 1.To 范围数据循环 to <-规定to 前后闭合，如i<- 1 to 10,则输出包括1到10的所有数 for (i<- 1 to 12){ println("她喜欢我"+i+"次")//输出结果为1-12所有数 2.until 前闭合后开 i<-1 until 10 相当于输出 ......

基础 Scala1 Spark Scala更新时间 2023-09-11

Spark基础——scala1.2

if/if else/StdIn.readShort方法运用 StdIn.readShort适用于整数数据类型 println("请输入年龄") var age=StdIn.readShort//交互式 if (age<18){ println("小屁孩") }else{ println("大人") ......

基础 scala1 Spark scala更新时间 2023-09-11

Spark基础——scala基础1.0

定义对象和强制转化 1.定义规则 var 变量名：变量类型 =初始值 var i :Int=10 var j :Double=3.33 //var 变量名：变量类型 =初始值 val o:Int=2 //val 常量名：变量类型 =初始值变量声明时，必须要有初始值 i=20 //var修饰的 ......

基础 Spark scala 1.0更新时间 2023-09-11

spark2.4.4安装

1、环境准备：下载spark-2.4.4-bin-hadoop2.7.tgz 上传安装包到Linux中解压安装包 tar -zxf spark-2.4.4-bin-hadoop2.7.tgz -C /hadoop/app 2、配置环境 2.1修改hadoop中yarn-site.xml <pro ......

spark2 spark 4.4更新时间 2023-09-09

共215篇 :3/8页 首页上一页123456下一页尾页