任务hbase spark hive

spark 3.x idea linux远程开发环境搭建

依赖包 jdk 8或11都行,不要到jdk 17 jdk 17第一个问题是jdk内部类默认不允许反射,很多配置要改。 scala 2.13 scala 2.13版本是为scala 3.0版本准备的,改进挺多。可通过scala编程(第四版)学习。 hadoop 3.2.1 因为windows hado ......
环境 spark linux idea

Hive常见问题

Hive常见问题 1、hive创建数据库 在使用hive指令创建数据库时,指定创建位置 create database bigdata_demo1 location '/bigdata_29'; 在shell脚本中显示创建返回结果 但是在hdfs中并未找到该数据库; 这里可能是bug,于是我们通过第 ......
常见问题 常见 问题 Hive

实验七:Spark机器学习库Mtlib编程实践

1、数据导入 导入相关的jar包: import org.apache.spark.ml.feature.PCA import org.apache.spark.sql.Row import org.apache.spark.ml.linalg.{Vector,Vectors} import org ......
机器 Spark Mtlib

Spark版本不兼容导致Standalone集群无法连接问题

一、Spark版本不一致报错现象 当使用client模式连接Spark的standalone集群时,报错所有的spark master的节点都没有回应。 二、问题排查思路 通过client端的日志产看没有什么有价值的信息,需要看下spark端的master的日志,docker logs spark- ......
集群 Standalone 版本 问题 Spark

Spark读写达梦数据库报错Decimal精度为负数以及解决方案

一、Spark读取DM数据库问题描述 当达梦的表格设计使用number数据类型时,如果没有指定精确,使用默认值,如下图所示 则在读取该表格数据时,报错如下: 24/01/12 10:43:48 ERROR Node: [47db01a8b6ff47e7840cb0a777033721]:compon ......
负数 精度 解决方案 Decimal 数据库

毕设具体任务

目录第十九周(1.8—1.14)第二十周(1.15—1.21)寒假第一周(1.22—2.4)寒假第二周(2.5—2.11)寒假第三周(2.12—2.18)寒假第四周(2.19—2.25)第一周(2.26—3.03)第二周(3.04—3.10)第三周(3.11—3.17)第四周(3.18—3.24)第 ......
任务

简易机器学习笔记(十一)opencv 简易使用-人脸识别、分类任务

前言 前段时间摸了下机器学习,然后我发现其实openCV还是一个很浩瀚的库的,现在也正在写一篇有关yolo的博客,不过感觉理论偏多,所以在学yolo之前先摸一下opencv,简单先写个项目感受感受opencv。 流程 openCV实际上已经有一个比较完整的模型了,下载在haarcascades 这里 ......
简易 人脸 机器 任务 笔记

.net core分布式定时任务调度系统

分布式任务调度平台XXL-JOB与.net core分布式定时任务调度系统 .net core分布式定时任务调度系统前端:java web 后端:.net core3.1数据库:mysql,sqlserver 来源 银柱网 http://www.liyinzhu.com ......
分布式 任务 系统 core net

Spark On YARN架构

Spark On YARN模式遵循YARN的官方规范,YARN只负责资源的管理和调度,运行哪种应用程序由用户自己决定,因此可能在YARN上同时运行MapReduce程序和Spark程序,YARN对每一个程序很好地实现了资源的隔离。这使得Spark与MapReduce可以运行于同一个集群中,共享集群存 ......
架构 Spark YARN On

Spark on YARN的两种部署模式

Client模式和Cluster模式最最本质的区别是:Driver程序运行在哪里。  Client模式:学习测试时使用,生产不推荐(要用也可以,性能略低,稳定性略低) 1.Driver运行在Client上,和集群的通信成本高 2.Driver输出结果会在客户端显示  Cluster模式:生产环境 ......
模式 Spark YARN on

Kettle设置定时跑任务

1.Kettle设置作业 保存,test.kjb 2. 创建批处理 zxjb.bat C: cd C:\kettle\pdi-ce-9.4.0.0-343\data-integration kitchen.bat /file C:\kettle\ket\dw\test.kjb /level Deta ......
任务 Kettle

Spark - spark on yarn 的作业提交流程

客户端(Client)通过YARN的ResourceManager提交应用程序。在此过程中,客户端进行权限验证,生成Job ID和资源上传路径,并将这些信息返回给客户端。 客户端将jar包、配置文件、第三方包等文件上传到指定的HDFS路径。完成后,客户端再次向ResourceManager提交作业执 ......
流程 Spark spark yarn on

Spark - 面试题

Spark是什么?答案:Apache Spark是一个快速、通用的大数据处理引擎,它提供了大规模数据集的内存计算和分布式计算能力。Spark可以处理各种数据源,如HDFS、Hive、Cassandra等,并提供了丰富的API和工具集,用于批处理、流处理、机器学习、图处理等多种计算场景。 Spark的 ......
Spark

Hive - 面试题

什么是Hive?答案:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 Hive的数据存储在哪里?答案:Hive的数据通常存储在Hadoop分布式文件系统(HDFS)上。Hive将HDFS上的数据映射成表格形式,并提供类似SQL的查询语 ......
Hive

crontab 任务报错生成小文件及邮件告警处理

CRONTAB服务不断发邮件问题解决 问题背景 操作系统: Linux SuSe12ps5 规格: 4C8G 现在描述: 操作系统异常卡慢,甚至无法正常登录到服务器,服务器/var/log/messages 的日志过大,撑爆了/var 目录磁盘空间。 /var/spool/postfix/maild ......
邮件 任务 crontab 文件

celery 任务

一、周期性任务 示例代码 from django.core.mail import send_mail from celery.task.base import periodic_task from celery.schedules import crontab from celery.except ......
任务 celery

[转]电子对抗作战任务规划:战场平行仿真系统

本文转自:微信公众号 军桥网 作战任务规划来源于美军,所对应的英文为“Operation Planning /Mission Planning”,此“Operation Planning(OP)”与“Mission Planning(MP)”是一个整体。美军对“OP”与“MP”均有详细定义,前者指战 ......
战场 任务 系统 电子

SpringBoot中使用SpringEvent业务解耦神器实现监听发布事件同步异步执行任务

场景 SpringBoot中使用单例模式+ScheduledExecutorService实现异步多线程任务(若依源码学习): https://blog.csdn.net/BADAO_LIUMANG_QIZHI/article/details/135504554 设计模式-观察者模式在Java中的使 ......
解耦 神器 SpringEvent SpringBoot 任务

29-Kubernete 中也有定时任务吗?

前面我们学习了 Deployment、Statefulset、Daemonset 这些工作负载,它们可以帮助我们在不同的场景下运行长伺型(Long Running)的服务。 但是有一类业务(一次性作业和定时任务)运行完就结束了,不需要长期运行,如果使用上述的那些工作负载就无法满足我们的要求。比如 P ......
Kubernete 任务 29

Ai歌声转化算法任务初了解

2.13【A13】 智能计算 计算类 歌声转换算法 随着深度学习的发展, 近些年来音频算法在智能医疗、语音识别、语音合 成、声源定位等领域的应用非常火热,其效能和速度也不断得到精进。从过去的 云端服务, 逐步脱离并发展到PC端边缘运算, 到这几年再往移动端运算发展。 尽管硬件的运算能力越来越强大, ......
算法 歌声 任务

spark的学习1-11

大数据第36期打卡-Day9-p102-p106学习笔记Spark并行度spark的并行:在同一时间内,有多少个tes k在同时运行并行度:并行能力的设置比如设置并行度6,其实是6个tast才并行在跑在有了6个tast并行的前提下,rdd的分区被规划成6个分区Driver的两个组件DAG调度器工作内 ......
spark 11

hadoop和spark

Spark和Hadoop是大数据处理领域两个重要的开源框架,它们之间既有紧密的联系也有显著的区别。 联系: 生态兼容:Spark可以无缝运行在Hadoop之上,利用Hadoop Distributed File System (HDFS) 进行数据存储,并且可以通过YARN(Yet Another ......
hadoop spark

今天了解了spark。

Apache Spark(通常简称为Spark)是一个开源的、分布式计算系统,用于大规模数据处理和分析。它提供了高效、通用、可扩展的数据处理框架,支持多种编程语言,包括Scala、Java、Python和R。Spark最初由加州大学伯克利分校的AMPLab(Algorithms, Machines, ......
spark

spark学习

Spark提供了6大组件: Spark Core:Spark Core 是 Spark 的基础,它提供了内存计算的能力,是分布式处理大数据集的基础。它将分布式数据抽象为弹性分布式数据集(RDD),并为运行在其上的上层组件提供 API。所有 Spark 的上层组件都建立在 Spark Core 的基础 ......
spark

Spark的架构角色

......
架构 角色 Spark

Spark 框架模块和Spark的运行模式 -

整个Spark 框架模块包含:Spark Core、 Spark SQL、 Spark Streaming、 Spark GraphX、 Spark MLlib,而后四项的能力都是建立在核心引擎之上 Spark Core:Spark的核心,Spark核心功能均由Spark Core模块提供,是Spa ......
Spark 框架 模块 模式

Spark四大特点

Apache Spark是一个开源的分布式计算框架,拥有四大显著特点: 1. **速度快**:Spark基于内存的运算效率要快100倍以上,基于硬盘的运算效率也要快10倍以上。其先进的DAG调度程序、查询优化程序和物理执行引擎,使得Spark能高效处理数据流。 2. **易用性**:Spark支持J ......
特点 Spark

Spark开始

定义:Apache Spark是用于大规模数据(large-scala data)处理的统一(unified)分析引擎。 简而言之,Spark 借鉴了 MapReduce 思想发展而来,保留了其分布式并行计算的优点并改进了其明显的缺陷。让中间数据存储在内存中提 高了运行速度、并提供丰富的操作数据的A ......
Spark

面试题:Hadoop的基于进程的计算和Spark基于线程方式优缺点?

Hadoop中的MR中每个map/reduce task都是一个java进程方式运行,好处在于进程之间是互相独立的,每个task独享进程资源,没 有互相干扰,监控方便,但是问题在于task之间不方便共享数据,执行效率比较低。比如多个map task读取不同数据源文件需要将数据源加 载到每个map t ......
优缺点 线程 进程 方式 Hadoop

SpringBoot中使用单例模式+ScheduledExecutorService实现异步多线程任务(若依源码学习)

场景 若依前后端分离版手把手教你本地搭建环境并运行项目: https://blog.csdn.net/BADAO_LIUMANG_QIZHI/article/details/108465662 设计模式-单例模式-饿汉式单例模式、懒汉式单例模式、静态内部类在Java中的使用示例: https://b ......
共1890篇  :1/63页 首页上一页1下一页尾页