spark idea

spark 3.x idea linux远程开发环境搭建

依赖包 jdk 8或11都行,不要到jdk 17 jdk 17第一个问题是jdk内部类默认不允许反射,很多配置要改。 scala 2.13 scala 2.13版本是为scala 3.0版本准备的,改进挺多。可通过scala编程(第四版)学习。 hadoop 3.2.1 因为windows hado ......
环境 spark linux idea

IDEA项目名称后面出现中括号,模块Modules的名子和文件夹名称不同,可以右键修改名称也可以在File->Project Structure 修改Modules的Name(快捷键ctrl+Shift+Alt+s)

IDEA项目名称后面出现中括号,Modules的名子和文件夹名称不同,可以右键修改名称也可以在File->Project Structure 修改Modules的Name(快捷键ctrl+Shift+Alt+s) Project中出现中括号如: 原因: Modules的名子和文件夹名称不同 解决 主 ......
名称 Modules 名子 快捷键 文件夹

实验七:Spark机器学习库Mtlib编程实践

1、数据导入 导入相关的jar包: import org.apache.spark.ml.feature.PCA import org.apache.spark.sql.Row import org.apache.spark.ml.linalg.{Vector,Vectors} import org ......
机器 Spark Mtlib

idea 中java代码修改后运行代码不生效

背景 在使用idea开发项目过程中,经常会多版本切换开发,有时在一个分支中提交代码修改后,重新运行项目还是之前版本的项目,修改没有生效 解决方案 方案一 依赖的模块版本不变,只修改了代码没有及时打到本地库。可以对依赖的模块执行 mvn clean install 后重新运行项目 方案二 原先的项目文 ......
代码 idea java

Spark版本不兼容导致Standalone集群无法连接问题

一、Spark版本不一致报错现象 当使用client模式连接Spark的standalone集群时,报错所有的spark master的节点都没有回应。 二、问题排查思路 通过client端的日志产看没有什么有价值的信息,需要看下spark端的master的日志,docker logs spark- ......
集群 Standalone 版本 问题 Spark

Spark读写达梦数据库报错Decimal精度为负数以及解决方案

一、Spark读取DM数据库问题描述 当达梦的表格设计使用number数据类型时,如果没有指定精确,使用默认值,如下图所示 则在读取该表格数据时,报错如下: 24/01/12 10:43:48 ERROR Node: [47db01a8b6ff47e7840cb0a777033721]:compon ......
负数 精度 解决方案 Decimal 数据库

idea 热部署插件 JRebel

前言: 热部署:是在不关闭或重启服务的情况下,更新Java类文件或配置文件,实现修改内容生效; 通过热部署,可提高开发效率,节省程序打包重启的时间;同时,可实现生产环境中需要不停机或重启的服务的升级。 随着代码量增加,也需要不断改动,我们需要重新Run或者DeBug。 开发效率下降,JRebel就是 ......
插件 JRebel idea

IDEA常用快捷键大全

为方便大家提升IDEA开发操作效率,参考了 IntelliJ IDEA 的官网,列举了IntelliJ IDEA(Windows 版本)的所有快捷键。 一、构建/编译Ctrl + F9:构建项目 使用此快捷键等同于菜单【Build】—>【Build Project】1使用此命令后,IntelliJ ......
快捷键 常用 大全 IDEA

Spark On YARN架构

Spark On YARN模式遵循YARN的官方规范,YARN只负责资源的管理和调度,运行哪种应用程序由用户自己决定,因此可能在YARN上同时运行MapReduce程序和Spark程序,YARN对每一个程序很好地实现了资源的隔离。这使得Spark与MapReduce可以运行于同一个集群中,共享集群存 ......
架构 Spark YARN On

Spark on YARN的两种部署模式

Client模式和Cluster模式最最本质的区别是:Driver程序运行在哪里。  Client模式:学习测试时使用,生产不推荐(要用也可以,性能略低,稳定性略低) 1.Driver运行在Client上,和集群的通信成本高 2.Driver输出结果会在客户端显示  Cluster模式:生产环境 ......
模式 Spark YARN on

[转帖]idea配置tomcat参数,防止nvarchar保存韩文、俄文、日文等乱码

描述下我的场景: 数据库服务器在远程机器上,数据库使用的Oracle,字符集是ZHS16GBK,但保存韩文、俄文、日文等字段A的数据类型是nvarchar(120),而nvarchar使用的是Unicode 编码,有点乱。。 遇到的问题: 我在本地机器idea上配置的tomcat9.0.52,启动项 ......
乱码 nvarchar 参数 tomcat idea

IDEA中常用快捷输入

1)输入psvm然后回车,会自动补齐 public static void main(String[] args){} 2)输入sout然后回车,会自动补齐 System.out.println(); 3)输入fori然后回车,会自动补齐 for (int i = 0; i < ; i++) 4)输 ......
常用 IDEA

Spark - spark on yarn 的作业提交流程

客户端(Client)通过YARN的ResourceManager提交应用程序。在此过程中,客户端进行权限验证,生成Job ID和资源上传路径,并将这些信息返回给客户端。 客户端将jar包、配置文件、第三方包等文件上传到指定的HDFS路径。完成后,客户端再次向ResourceManager提交作业执 ......
流程 Spark spark yarn on

Spark - 面试题

Spark是什么?答案:Apache Spark是一个快速、通用的大数据处理引擎,它提供了大规模数据集的内存计算和分布式计算能力。Spark可以处理各种数据源,如HDFS、Hive、Cassandra等,并提供了丰富的API和工具集,用于批处理、流处理、机器学习、图处理等多种计算场景。 Spark的 ......
Spark

在IDEA中使用MySQL8.0及以上版本无法连接,时区timezone同步设置

原因:mysql 使用了UTC方式来记录日志时间,也就是说这是个世界统一时间,存入mysql中的时间只能是UTC时间,它是基于标准的格林威治时间(GMT)提供的准确时间。各地的标准时间为格林威治时间(G.M.T)加上 (+) 或减去 (-) 时区中所标的小时和分钟数时差。中国是GMT+8. 配置环境 ......
时区 timezone 版本 MySQL8 MySQL

公司台式机上面的GitBlit代码管理-在IDEA中配置下载下来

将现有项目设置成公司台式机上面的GitBlit代码管理对应的版本库 然后添加远程仓库路径 提交前一定多次确认远程仓库地址 然后提交 ......
台式 面的 GitBlit 代码 公司

IDEA创建类自带备注信息

1. 打开 File => Settings => Editor => File and Code Templates > Includer >File Header 2. 设置默认备注信息 /** * @Description: 类描述 * @date: ${YEAR}/${MONTH}/${DA ......
备注 信息 IDEA

IntelliJ IDEA Debug模式下结束后继续执行代码问题

1. 默认的配置 默认的Debug模式下点击Stop后会继续执行代码。 2. 设置不继续执行后续代码 Preferences -> Build,Execution,Deployment -> Debugger 找到Java那一栏下边可以看到 Kill the debug process immedi ......
IntelliJ 模式 代码 问题 Debug

spark的学习1-11

大数据第36期打卡-Day9-p102-p106学习笔记Spark并行度spark的并行:在同一时间内,有多少个tes k在同时运行并行度:并行能力的设置比如设置并行度6,其实是6个tast才并行在跑在有了6个tast并行的前提下,rdd的分区被规划成6个分区Driver的两个组件DAG调度器工作内 ......
spark 11

idea 还原误删文件

idea 还原误删文件_idea revert错了怎么恢复 项目名右击 --》local history 》show history 查看之前删除的文件,选择误删文件,右击,恢复即可。 转自:idea 还原误删文件_idea revert错了怎么恢复-CSDN博客 ......
文件 idea

hadoop和spark

Spark和Hadoop是大数据处理领域两个重要的开源框架,它们之间既有紧密的联系也有显著的区别。 联系: 生态兼容:Spark可以无缝运行在Hadoop之上,利用Hadoop Distributed File System (HDFS) 进行数据存储,并且可以通过YARN(Yet Another ......
hadoop spark

今天了解了spark。

Apache Spark(通常简称为Spark)是一个开源的、分布式计算系统,用于大规模数据处理和分析。它提供了高效、通用、可扩展的数据处理框架,支持多种编程语言,包括Scala、Java、Python和R。Spark最初由加州大学伯克利分校的AMPLab(Algorithms, Machines, ......
spark

spark学习

Spark提供了6大组件: Spark Core:Spark Core 是 Spark 的基础,它提供了内存计算的能力,是分布式处理大数据集的基础。它将分布式数据抽象为弹性分布式数据集(RDD),并为运行在其上的上层组件提供 API。所有 Spark 的上层组件都建立在 Spark Core 的基础 ......
spark

Apipost IDEA插件,真的超好用

IDEA是一款功能强大的集成开发环境(IDE),它可以帮助开发人员更加高效地编写、调试和部署软件应用程序。我们在编写完接口代码后需要进行接口调试等操作,一般需要打开额外的调试工具。 今天给大家介绍一款IDEA插件:Apipost-Helper-2.0。代码写完直接编辑器内调试、还支持生成接口文档、接 ......
插件 Apipost IDEA

Spark的架构角色

......
架构 角色 Spark

Spark 框架模块和Spark的运行模式 -

整个Spark 框架模块包含:Spark Core、 Spark SQL、 Spark Streaming、 Spark GraphX、 Spark MLlib,而后四项的能力都是建立在核心引擎之上 Spark Core:Spark的核心,Spark核心功能均由Spark Core模块提供,是Spa ......
Spark 框架 模块 模式

Spark四大特点

Apache Spark是一个开源的分布式计算框架,拥有四大显著特点: 1. **速度快**:Spark基于内存的运算效率要快100倍以上,基于硬盘的运算效率也要快10倍以上。其先进的DAG调度程序、查询优化程序和物理执行引擎,使得Spark能高效处理数据流。 2. **易用性**:Spark支持J ......
特点 Spark

Spark开始

定义:Apache Spark是用于大规模数据(large-scala data)处理的统一(unified)分析引擎。 简而言之,Spark 借鉴了 MapReduce 思想发展而来,保留了其分布式并行计算的优点并改进了其明显的缺陷。让中间数据存储在内存中提 高了运行速度、并提供丰富的操作数据的A ......
Spark

面试题:Hadoop的基于进程的计算和Spark基于线程方式优缺点?

Hadoop中的MR中每个map/reduce task都是一个java进程方式运行,好处在于进程之间是互相独立的,每个task独享进程资源,没 有互相干扰,监控方便,但是问题在于task之间不方便共享数据,执行效率比较低。比如多个map task读取不同数据源文件需要将数据源加 载到每个map t ......
优缺点 线程 进程 方式 Hadoop

IDEA Debug 调试技巧(基础版)

前言 Debug 是程序员的开发神器,使用好了可以帮助我们非常高效的工作、学习、排查问题等。毫不客气的说,是决定我们进阶到更高层级的一个重要技能。 正文 Debug 的常见使用场景 需求代码测试:通过debug你才能知道你的代码究竟是怎么运行的,更容易发现问题 问题排查:只要能进入到问题流程的deb ......
技巧 基础 Debug IDEA
共1580篇  :1/53页 首页上一页1下一页尾页