spark hive on

spark 3.x idea linux远程开发环境搭建

依赖包 jdk 8或11都行,不要到jdk 17 jdk 17第一个问题是jdk内部类默认不允许反射,很多配置要改。 scala 2.13 scala 2.13版本是为scala 3.0版本准备的,改进挺多。可通过scala编程(第四版)学习。 hadoop 3.2.1 因为windows hado ......
环境 spark linux idea

Hive常见问题

Hive常见问题 1、hive创建数据库 在使用hive指令创建数据库时,指定创建位置 create database bigdata_demo1 location '/bigdata_29'; 在shell脚本中显示创建返回结果 但是在hdfs中并未找到该数据库; 这里可能是bug,于是我们通过第 ......
常见问题 常见 问题 Hive

实验七:Spark机器学习库Mtlib编程实践

1、数据导入 导入相关的jar包: import org.apache.spark.ml.feature.PCA import org.apache.spark.sql.Row import org.apache.spark.ml.linalg.{Vector,Vectors} import org ......
机器 Spark Mtlib

Spark版本不兼容导致Standalone集群无法连接问题

一、Spark版本不一致报错现象 当使用client模式连接Spark的standalone集群时,报错所有的spark master的节点都没有回应。 二、问题排查思路 通过client端的日志产看没有什么有价值的信息,需要看下spark端的master的日志,docker logs spark- ......
集群 Standalone 版本 问题 Spark

Spark读写达梦数据库报错Decimal精度为负数以及解决方案

一、Spark读取DM数据库问题描述 当达梦的表格设计使用number数据类型时,如果没有指定精确,使用默认值,如下图所示 则在读取该表格数据时,报错如下: 24/01/12 10:43:48 ERROR Node: [47db01a8b6ff47e7840cb0a777033721]:compon ......
负数 精度 解决方案 Decimal 数据库

2024-01-13 Can't perform a React state update on an unmounted component. This is a no-op, but it indicates a memory leak in your application. ==》引用了未使用的方法导致

react+antd业务代码报错: Can't perform a React state update on an unmounted component. This is a no-op, but it indicates a memory leak in your application. T ......

Spark On YARN架构

Spark On YARN模式遵循YARN的官方规范,YARN只负责资源的管理和调度,运行哪种应用程序由用户自己决定,因此可能在YARN上同时运行MapReduce程序和Spark程序,YARN对每一个程序很好地实现了资源的隔离。这使得Spark与MapReduce可以运行于同一个集群中,共享集群存 ......
架构 Spark YARN On

mysql> GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' WITH GRANT OPTION; ERROR 1410 (42000): You are not allowed to create a user with GRANT

mysql> GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' WITH GRANT OPTION;ERROR 1410 (42000): You are not allowed to create a user with GRANT 解决办法 以下是 8.0版本的 ......
GRANT 39 PRIVILEGES allowed OPTION

Spark on YARN的两种部署模式

Client模式和Cluster模式最最本质的区别是:Driver程序运行在哪里。  Client模式:学习测试时使用,生产不推荐(要用也可以,性能略低,稳定性略低) 1.Driver运行在Client上,和集群的通信成本高 2.Driver输出结果会在客户端显示  Cluster模式:生产环境 ......
模式 Spark YARN on

redis报错MISCONF Errors writing to the AOF file: No space left on device,磁盘满无法写入数据报错

查询报错远程调用接口异常,F12查看网络和标投和预览到是mgr的接口此错误#根据报错提示:Error in execution; nested excepti on is io.lettuce.core.RedisCommandExecutionException: MISCONF Errors w ......
磁盘 MISCONF writing 数据 Errors

Early lameness detection in dairy cattle based on wearable gait analysis using semi-supervised LSTM-Autoencoder

一区top Computers and Electronics in Agriculture 题目:“基于半监督 LSTM-自动编码器可穿戴步态分析的奶牛早期跛行检测” (Zhang 等, 2023, p. 1) (pdf) “Early lameness detection in dairy ca ......

基于正则化的图自编码器在推荐算法中的应用 Application of graph auto-encoders based on regularization in recommendation algorithms

引言 看过的每一篇文章,都是对自己的提高。不积跬步无以至千里,不积小流无以成江海,积少成多,做更好的自己。 本文基于2023年4月6日发表于SCIPEERJ COMPUTER SCIENCE(PEERJ计算机科学)上的一篇名为《基于正则化的图自编码器在推荐算法中的应用》(Application of ......

scp 出现 subsystem request failed on channel 0 scp: Connection closed 的解决方法

. . . . . 先说结论,给 scp 命令添加一个 -O (大写字母O,不是数字0)参数就可以了。 开启故事模式 最近在使用 Gerrit 下载代码的时候,发现出现这样的错误: >$ git clone "ssh://user@10.10.10.13:29418/project/manifest ......
Connection scp subsystem request channel

Spark - spark on yarn 的作业提交流程

客户端(Client)通过YARN的ResourceManager提交应用程序。在此过程中,客户端进行权限验证,生成Job ID和资源上传路径,并将这些信息返回给客户端。 客户端将jar包、配置文件、第三方包等文件上传到指定的HDFS路径。完成后,客户端再次向ResourceManager提交作业执 ......
流程 Spark spark yarn on

Spark - 面试题

Spark是什么?答案:Apache Spark是一个快速、通用的大数据处理引擎,它提供了大规模数据集的内存计算和分布式计算能力。Spark可以处理各种数据源,如HDFS、Hive、Cassandra等,并提供了丰富的API和工具集,用于批处理、流处理、机器学习、图处理等多种计算场景。 Spark的 ......
Spark

Hive - 面试题

什么是Hive?答案:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 Hive的数据存储在哪里?答案:Hive的数据通常存储在Hadoop分布式文件系统(HDFS)上。Hive将HDFS上的数据映射成表格形式,并提供类似SQL的查询语 ......
Hive

解决前后端的跨域问题:Access to XMLHttpRequest at '**' from origin '**' has been blocked by CORS policy: No 'Access-Control-Allow-Origin' header is present on the requested resource.

报错信息: Access to XMLHttpRequest at 'http://localhost:8182/cooperationRequest/getList' from origin 'http://localhost:3004' has been blocked by CORS poli ......

spark的学习1-11

大数据第36期打卡-Day9-p102-p106学习笔记Spark并行度spark的并行:在同一时间内,有多少个tes k在同时运行并行度:并行能力的设置比如设置并行度6,其实是6个tast才并行在跑在有了6个tast并行的前提下,rdd的分区被规划成6个分区Driver的两个组件DAG调度器工作内 ......
spark 11

No 'Access-Control-Allow-Origin' header is present on the requested resource', 跨域访问的解决方法

https://blog.csdn.net/dear_little_bear/article/details/83999391 1. 当请求不在同一域名下的资源文件(ip地址+端口号)时,会报如下错误:“No ‘Access-Control-Allow-Origin’ header is prese ......

hadoop和spark

Spark和Hadoop是大数据处理领域两个重要的开源框架,它们之间既有紧密的联系也有显著的区别。 联系: 生态兼容:Spark可以无缝运行在Hadoop之上,利用Hadoop Distributed File System (HDFS) 进行数据存储,并且可以通过YARN(Yet Another ......
hadoop spark

今天了解了spark。

Apache Spark(通常简称为Spark)是一个开源的、分布式计算系统,用于大规模数据处理和分析。它提供了高效、通用、可扩展的数据处理框架,支持多种编程语言,包括Scala、Java、Python和R。Spark最初由加州大学伯克利分校的AMPLab(Algorithms, Machines, ......
spark

On Java 中文版 基础卷 PDF

本书是布鲁斯 • 埃克尔时隔 15 年,继 Thinking in Java 之后又一力作,基于 Java 的 3 个长期支持版(Java 8、11、17),讲解 Java 核心语法,并对 Java 的核心变化进行详述。全书内容通俗易懂,配合示例讲解逐步深入,并结合实际开发需要,从语言底层设计出发, ......
中文版 基础 Java PDF On

spark学习

Spark提供了6大组件: Spark Core:Spark Core 是 Spark 的基础,它提供了内存计算的能力,是分布式处理大数据集的基础。它将分布式数据抽象为弹性分布式数据集(RDD),并为运行在其上的上层组件提供 API。所有 Spark 的上层组件都建立在 Spark Core 的基础 ......
spark

freeswitch on centos docker

概述 freeswitch是一款简单好用的VOIP开源软交换平台。 centos7 docker上编译安装fs的流程记录。 环境 docker engine:Version 24.0.6 centos docker:7 freeswitch:v1.6.19 centos准备 docker hub拉取 ......
freeswitch centos docker on

Spark的架构角色

......
架构 角色 Spark

Spark 框架模块和Spark的运行模式 -

整个Spark 框架模块包含:Spark Core、 Spark SQL、 Spark Streaming、 Spark GraphX、 Spark MLlib,而后四项的能力都是建立在核心引擎之上 Spark Core:Spark的核心,Spark核心功能均由Spark Core模块提供,是Spa ......
Spark 框架 模块 模式

Spark四大特点

Apache Spark是一个开源的分布式计算框架,拥有四大显著特点: 1. **速度快**:Spark基于内存的运算效率要快100倍以上,基于硬盘的运算效率也要快10倍以上。其先进的DAG调度程序、查询优化程序和物理执行引擎,使得Spark能高效处理数据流。 2. **易用性**:Spark支持J ......
特点 Spark

Spark开始

定义:Apache Spark是用于大规模数据(large-scala data)处理的统一(unified)分析引擎。 简而言之,Spark 借鉴了 MapReduce 思想发展而来,保留了其分布式并行计算的优点并改进了其明显的缺陷。让中间数据存储在内存中提 高了运行速度、并提供丰富的操作数据的A ......
Spark

面试题:Hadoop的基于进程的计算和Spark基于线程方式优缺点?

Hadoop中的MR中每个map/reduce task都是一个java进程方式运行,好处在于进程之间是互相独立的,每个task独享进程资源,没 有互相干扰,监控方便,但是问题在于task之间不方便共享数据,执行效率比较低。比如多个map task读取不同数据源文件需要将数据源加 载到每个map t ......
优缺点 线程 进程 方式 Hadoop

"mysql : 无法将“mysql”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。请检查名称的拼写,如果包括路径,请确保路径正确,然后再试一次。"错误以及"Can't connect to MySQL server on 'localhost' (10061) after Installation"错误解决办法

在mysql的安装路径的bin目录下执行命令 mysqld --install, 在windows上安装mysql服务 mysqld --initialize, 初始化数据目录. 然后在windows中使用win+r service.msc 命令打开windows服务, 找到并手动启动mysql的服 ......
quot 路径 错误 名称 mysql
共1300篇  :1/44页 首页上一页1下一页尾页