简介hadoop spark

spark 3.x idea linux远程开发环境搭建

依赖包 jdk 8或11都行，不要到jdk 17 jdk 17第一个问题是jdk内部类默认不允许反射，很多配置要改。 scala 2.13 scala 2.13版本是为scala 3.0版本准备的，改进挺多。可通过scala编程（第四版）学习。 hadoop 3.2.1 因为windows hado ......

环境 spark linux idea更新时间 2024-01-13

01_STM32简介

STM32简介简介 ARM STM32F103C8T6 片上资源/外设命名规则系统结构引脚定义启动配置最小系统电路 ......

简介 STM 01 32更新时间 2024-01-13

实验七：Spark机器学习库Mtlib编程实践

1、数据导入导入相关的jar包： import org.apache.spark.ml.feature.PCA import org.apache.spark.sql.Row import org.apache.spark.ml.linalg.{Vector,Vectors} import org ......

机器 Spark Mtlib更新时间 2024-01-13

Spark版本不兼容导致Standalone集群无法连接问题

一、Spark版本不一致报错现象当使用client模式连接Spark的standalone集群时，报错所有的spark master的节点都没有回应。二、问题排查思路通过client端的日志产看没有什么有价值的信息，需要看下spark端的master的日志，docker logs spark- ......

集群 Standalone 版本问题 Spark更新时间 2024-01-13

Spark读写达梦数据库报错Decimal精度为负数以及解决方案

一、Spark读取DM数据库问题描述当达梦的表格设计使用number数据类型时，如果没有指定精确，使用默认值，如下图所示则在读取该表格数据时，报错如下： 24/01/12 10:43:48 ERROR Node: [47db01a8b6ff47e7840cb0a777033721]:compon ......

负数精度解决方案 Decimal 数据库更新时间 2024-01-13

Spark On YARN架构

Spark On YARN模式遵循YARN的官方规范，YARN只负责资源的管理和调度，运行哪种应用程序由用户自己决定，因此可能在YARN上同时运行MapReduce程序和Spark程序，YARN对每一个程序很好地实现了资源的隔离。这使得Spark与MapReduce可以运行于同一个集群中，共享集群存 ......

架构 Spark YARN On更新时间 2024-01-12

Spark on YARN的两种部署模式

Client模式和Cluster模式最最本质的区别是：Driver程序运行在哪里。  Client模式：学习测试时使用，生产不推荐(要用也可以,性能略低,稳定性略低) 1.Driver运行在Client上,和集群的通信成本高 2.Driver输出结果会在客户端显示  Cluster模式：生产环境 ......

模式 Spark YARN on更新时间 2024-01-12

常见的传感器技术汇总简介

传感器技术是现代信息技术的关键组成部分之一，涉及到物理学、化学、生物学等多个学科领域，传感器应用范围广泛，包括工业自动化、环境监测、医疗保健、智能家居等领域。下面将介绍一些常见的传感器技术：温度传感器：用于测量温度和温差。最常见的温度传感器有热敏电阻和热电偶，它们广泛应用于温度控制、温度补偿和热量 ......

传感器常见简介技术更新时间 2024-01-12

Hadoop YARN ResourceManager 未授权访问

Hadoop YARN ResourceManager 未授权访问原理 Hadoop是一款由Apache基金会推出的分布式系统框架，它通过著名的MapReduce算法进行分布式处理，Yarn是Hadoop集群的资源管理系统。yarn提供有默认开放在8088和8090的REST API（默认前者）允 ......

ResourceManager Hadoop YARN更新时间 2024-01-12

env 命令简介

env 命令在 Unix 和 Unix-like 操作系统中，是用来运行一个指定的程序/命令，在执行时可以修改环境变量的一个工具。使用 env 可以启动任何指定的指令，并在这个指令的执行过程中设置或者修改环境变量。 env 命令的常见用途包括：打印当前环境变量简单地运行 env 不加任何参数，可 ......

命令简介 env更新时间 2024-01-12

Spark - spark on yarn 的作业提交流程

客户端（Client）通过YARN的ResourceManager提交应用程序。在此过程中，客户端进行权限验证，生成Job ID和资源上传路径，并将这些信息返回给客户端。客户端将jar包、配置文件、第三方包等文件上传到指定的HDFS路径。完成后，客户端再次向ResourceManager提交作业执 ......

流程 Spark spark yarn on更新时间 2024-01-11

Spark - 面试题

Spark是什么？答案：Apache Spark是一个快速、通用的大数据处理引擎，它提供了大规模数据集的内存计算和分布式计算能力。Spark可以处理各种数据源，如HDFS、Hive、Cassandra等，并提供了丰富的API和工具集，用于批处理、流处理、机器学习、图处理等多种计算场景。 Spark的 ......

Spark更新时间 2024-01-11

《大学计算机》课程简介 School of Computer Science and Engineering

《大学计算机》课程简介 School of Computer Science and Engineering 阅读量：1630 发布时间：2014-05-25 分享到：《大学计算机》课程是大学计算机基础教学的最基本课程，是大学本科非计算机专业学生必修的公共基础课。计算机基础课程如同数学、外语一样， ......

课程简介 Engineering Computer Science 课程更新时间 2024-01-11

Jenkins简介及安装配置详解：开启持续集成之旅

Jenkins简介及安装配置详解：开启持续集成之旅一、Jenkins介绍 Jenkins是一个开源的、用Java编写的持续集成和持续交付（CI/CD）工具。它提供了一种简单易用的方式来自动化构建、测试和部署软件。Jenkins的主要目标是帮助开发团队加快软件开发过程，提高软件质量，并通过自动化流程 ......

Jenkins 之旅简介更新时间 2024-01-11

spark的学习1-11

大数据第36期打卡-Day9-p102-p106学习笔记Spark并行度spark的并行：在同一时间内，有多少个tes k在同时运行并行度：并行能力的设置比如设置并行度6，其实是6个tast才并行在跑在有了6个tast并行的前提下，rdd的分区被规划成6个分区Driver的两个组件DAG调度器工作内 ......

spark 11更新时间 2024-01-11

hadoop和spark

Spark和Hadoop是大数据处理领域两个重要的开源框架，它们之间既有紧密的联系也有显著的区别。联系：生态兼容：Spark可以无缝运行在Hadoop之上，利用Hadoop Distributed File System (HDFS) 进行数据存储，并且可以通过YARN（Yet Another ......

hadoop spark更新时间 2024-01-11

DM7_SQL语言使用手册_第 1 章结构化查询语言 DM_SQL 简介

第 1 章结构化查询语言 DM_SQL 简介结构化查询语言 SQL(Structured Query Language)是在 1974 年提出的一种关系数据库语言。由于 SQL 语言接近英语的语句结构，方便简洁、使用灵活、功能强大，倍受用户及计算机工业界的欢迎，被众多计算机公司和数据库厂商所采 ......

语言 SQL DM7_SQL 结构手册更新时间 2024-01-11

Spring Boot入坑-3-Maven简介

概述 Maven是一个自动化构建工具能够将支持Maven项目的依赖包从远程仓库拉取到本地仓库，并进行依赖管理项目中通过pom.xml来描述项目，对项目依赖进行管理与配置给项目提供编译、打包、安装、部署支持 IDE提供了比较紧密的支持，如IDEA 在Maven项目中，会优先使用本地仓库依赖包，如 ......

简介 Spring Maven Boot更新时间 2024-01-10

今天了解了spark。

Apache Spark（通常简称为Spark）是一个开源的、分布式计算系统，用于大规模数据处理和分析。它提供了高效、通用、可扩展的数据处理框架，支持多种编程语言，包括Scala、Java、Python和R。Spark最初由加州大学伯克利分校的AMPLab（Algorithms, Machines, ......

spark更新时间 2024-01-10

spark学习

Spark提供了6大组件： Spark Core：Spark Core 是 Spark 的基础，它提供了内存计算的能力，是分布式处理大数据集的基础。它将分布式数据抽象为弹性分布式数据集（RDD），并为运行在其上的上层组件提供 API。所有 Spark 的上层组件都建立在 Spark Core 的基础 ......

spark更新时间 2024-01-10

Hadoop之mapreduce参数大全-5

101.指定任务启动过程中允许的最大跳过尝试次数 mapreduce.task.skip.start.attempts 是 Hadoop MapReduce 框架中的一个配置属性，用于指定任务启动过程中允许的最大跳过尝试次数。在 MapReduce 作业中，如果某个任务（Map 任务或 Reduc ......

mapreduce 参数大全 Hadoop更新时间 2024-01-10

Hadoop之mapreduce参数大全-6

126.指定 Map 任务运行的节点标签表达式 mapreduce.map.node-label-expression 是 Hadoop MapReduce 框架中的一个配置属性，用于指定 Map 任务运行的节点标签表达式。节点标签是在 Hadoop 集群中为节点分配的用户定义的标签，可用于将 Ma ......

mapreduce 参数大全 Hadoop更新时间 2024-01-10

Spark的架构角色

......

架构角色 Spark更新时间 2024-01-10

Spark 框架模块和Spark的运行模式 -

整个Spark 框架模块包含：Spark Core、 Spark SQL、 Spark Streaming、 Spark GraphX、 Spark MLlib，而后四项的能力都是建立在核心引擎之上 Spark Core：Spark的核心，Spark核心功能均由Spark Core模块提供，是Spa ......

Spark 框架模块模式更新时间 2024-01-10

Spark四大特点

Apache Spark是一个开源的分布式计算框架，拥有四大显著特点： 1. **速度快**：Spark基于内存的运算效率要快100倍以上，基于硬盘的运算效率也要快10倍以上。其先进的DAG调度程序、查询优化程序和物理执行引擎，使得Spark能高效处理数据流。 2. **易用性**：Spark支持J ......

特点 Spark更新时间 2024-01-10

面试题：Hadoop的基于进程的计算和Spark基于线程方式优缺点？

Hadoop中的MR中每个map/reduce task都是一个java进程方式运行，好处在于进程之间是互相独立的，每个task独享进程资源，没有互相干扰，监控方便，但是问题在于task之间不方便共享数据，执行效率比较低。比如多个map task读取不同数据源文件需要将数据源加载到每个map t ......

优缺点线程进程方式 Hadoop更新时间 2024-01-10

Spark开始

定义：Apache Spark是用于大规模数据（large-scala data）处理的统一（unified）分析引擎。简而言之，Spark 借鉴了 MapReduce 思想发展而来，保留了其分布式并行计算的优点并改进了其明显的缺陷。让中间数据存储在内存中提高了运行速度、并提供丰富的操作数据的A ......

Spark更新时间 2024-01-10

装载数据时报错：Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create spark client.)'

错误还原 hive (edu)> insert into huanhuan values(1,'haoge'); Query ID = root_20240110071417_fe1517ad-3607-41f4-bdcf-d00b98ac443e Total jobs = 1 Launching ......

Failed spark HiveException exception metadata更新时间 2024-01-10

Hadoop之mapreduce参数大全-4

76.指定在 MapReduce 作业中，哪些输出文件应该在任务失败时保留 mapreduce.task.files.preserve.filepattern 是 Hadoop MapReduce 框架中的一个配置属性，用于指定在 MapReduce 作业中，哪些输出文件应该在任务失败时保留。在 ......

mapreduce 参数大全 Hadoop更新时间 2024-01-09

Hadoop之mapreduce参数大全-3

51.指定Shuffle传输过程中可以同时连接的节点数 mapreduce.shuffle.max.connections是Hadoop MapReduce中的一个配置参数，用于指定Shuffle传输过程中可以同时连接的节点数。该参数用于控制Shuffle传输的并发度，以保障任务的稳定性和性能。可 ......

mapreduce 参数大全 Hadoop更新时间 2024-01-09

共1550篇 :1/52页 首页上一页1234下一页尾页