机器spark mtlib

spark 3.x idea linux远程开发环境搭建

依赖包 jdk 8或11都行,不要到jdk 17 jdk 17第一个问题是jdk内部类默认不允许反射,很多配置要改。 scala 2.13 scala 2.13版本是为scala 3.0版本准备的,改进挺多。可通过scala编程(第四版)学习。 hadoop 3.2.1 因为windows hado ......
环境 spark linux idea

实验七:Spark机器学习库Mtlib编程实践

1、数据导入 导入相关的jar包: import org.apache.spark.ml.feature.PCA import org.apache.spark.sql.Row import org.apache.spark.ml.linalg.{Vector,Vectors} import org ......
机器 Spark Mtlib

Spark版本不兼容导致Standalone集群无法连接问题

一、Spark版本不一致报错现象 当使用client模式连接Spark的standalone集群时,报错所有的spark master的节点都没有回应。 二、问题排查思路 通过client端的日志产看没有什么有价值的信息,需要看下spark端的master的日志,docker logs spark- ......
集群 Standalone 版本 问题 Spark

机器视觉 - YoloV8 命令行安装

创建python 环境 下载并安装 miniconda 安装包, 注意miniconda和 python 版本对应关系, 不要选择python最新的版本, 以免yolo或pytorch不能兼容最新版python. 这里到安装到 C:\miniconda3 配置 conda 环境, 修改conda配置 ......
命令 视觉 机器 YoloV8 YoloV

Spark读写达梦数据库报错Decimal精度为负数以及解决方案

一、Spark读取DM数据库问题描述 当达梦的表格设计使用number数据类型时,如果没有指定精确,使用默认值,如下图所示 则在读取该表格数据时,报错如下: 24/01/12 10:43:48 ERROR Node: [47db01a8b6ff47e7840cb0a777033721]:compon ......
负数 精度 解决方案 Decimal 数据库

机器学习-概率图模型系列-隐含马尔科夫模型-33

目录1. Hidden Markov Model2. HMM模型定义 注:参考链接 https://www.cnblogs.com/pinard/p/6945257.html 1. Hidden Markov Model 隐马尔科夫模型(Hidden Markov Model,以下简称HMM)是比较 ......
模型 概率 机器 33

数据科学 机器学习 (训练营)

地址: https://offerbang.io/ ......
训练营 机器 科学 数据

简易机器学习笔记(十一)opencv 简易使用-人脸识别、分类任务

前言 前段时间摸了下机器学习,然后我发现其实openCV还是一个很浩瀚的库的,现在也正在写一篇有关yolo的博客,不过感觉理论偏多,所以在学yolo之前先摸一下opencv,简单先写个项目感受感受opencv。 流程 openCV实际上已经有一个比较完整的模型了,下载在haarcascades 这里 ......
简易 人脸 机器 任务 笔记

Spark On YARN架构

Spark On YARN模式遵循YARN的官方规范,YARN只负责资源的管理和调度,运行哪种应用程序由用户自己决定,因此可能在YARN上同时运行MapReduce程序和Spark程序,YARN对每一个程序很好地实现了资源的隔离。这使得Spark与MapReduce可以运行于同一个集群中,共享集群存 ......
架构 Spark YARN On

Spark on YARN的两种部署模式

Client模式和Cluster模式最最本质的区别是:Driver程序运行在哪里。  Client模式:学习测试时使用,生产不推荐(要用也可以,性能略低,稳定性略低) 1.Driver运行在Client上,和集群的通信成本高 2.Driver输出结果会在客户端显示  Cluster模式:生产环境 ......
模式 Spark YARN on

【机器学习】逻辑回归

目录感知器的种类sigmoid(logistics)函数代价/损失函数(cost function)——对数损失函数(log loss function)梯度下降算法(gradient descent algorithm)正则化逻辑回归(regularization logistics regres ......
逻辑 机器

【机器学习】多元线性回归

目录多元线性回归模型(multiple regression model)损失/代价函数(cost function)——均方误差(mean squared error)批量梯度下降算法(batch gradient descent algorithm)特征工程(feature engineerin ......
线性 机器

Spark - spark on yarn 的作业提交流程

客户端(Client)通过YARN的ResourceManager提交应用程序。在此过程中,客户端进行权限验证,生成Job ID和资源上传路径,并将这些信息返回给客户端。 客户端将jar包、配置文件、第三方包等文件上传到指定的HDFS路径。完成后,客户端再次向ResourceManager提交作业执 ......
流程 Spark spark yarn on

Spark - 面试题

Spark是什么?答案:Apache Spark是一个快速、通用的大数据处理引擎,它提供了大规模数据集的内存计算和分布式计算能力。Spark可以处理各种数据源,如HDFS、Hive、Cassandra等,并提供了丰富的API和工具集,用于批处理、流处理、机器学习、图处理等多种计算场景。 Spark的 ......
Spark

深度学习之机器学习理论

(一)机器学习(Machine Learning):就是让计算机具备从大量数据中学习的能力之一系列方法。机器学习使用很多统计方法,统计学家也称之为统计学习,但本质上起源于计算机科学的人工智能。 (二)机器学习的分类:机器学习主要分为两类,即监督学习(supervised learning)与非监督学 ......
深度 机器 理论

机器学习如何改变缺陷检测的格局?

​ 机器学习在缺陷检测中扮演着重要的角色,它能够通过自动学习和识别各种缺陷的模式和特征,改变缺陷检测的格局。以下是机器学习在缺陷检测中的一些应用和优势: 自动化检测:机器学习技术可以自动化处理大量的数据,通过学习和识别缺陷的模式和特征,实现自动化检测。这大大提高了缺陷检测的效率和准确性,减少了人工干 ......
格局 缺陷 机器

spark的学习1-11

大数据第36期打卡-Day9-p102-p106学习笔记Spark并行度spark的并行:在同一时间内,有多少个tes k在同时运行并行度:并行能力的设置比如设置并行度6,其实是6个tast才并行在跑在有了6个tast并行的前提下,rdd的分区被规划成6个分区Driver的两个组件DAG调度器工作内 ......
spark 11

机器学习-决策树系列-贝叶斯算法-概率图模型-29

目录1. 复习条件概率2. 正式进入3. 生成式 与判别式 这个阶段的内容,采用概率论的思想,从样本里面学到知识(训练模型),并对新来的样本进行预测。 主要算法:贝叶斯分类算法、隐含马尔可夫模型、最大熵模型、条件随机场。 通过本阶段学习,掌握NLP自然语言处理的一些基本算法,本阶段的理解对于后续完成 ......
概率 算法 模型 机器 29

hadoop和spark

Spark和Hadoop是大数据处理领域两个重要的开源框架,它们之间既有紧密的联系也有显著的区别。 联系: 生态兼容:Spark可以无缝运行在Hadoop之上,利用Hadoop Distributed File System (HDFS) 进行数据存储,并且可以通过YARN(Yet Another ......
hadoop spark

今天了解了spark。

Apache Spark(通常简称为Spark)是一个开源的、分布式计算系统,用于大规模数据处理和分析。它提供了高效、通用、可扩展的数据处理框架,支持多种编程语言,包括Scala、Java、Python和R。Spark最初由加州大学伯克利分校的AMPLab(Algorithms, Machines, ......
spark

机器学习-梯度下降法

1、名称解释 (1)什么是无约束优化问题? 无约束优化问题是指在给定目标函数的情况下,寻找使目标函数取得最大值或最小值的变量取值,而不受任何约束条件限制的优化问题。 具体来说,无约束优化问题可以形式化地表示为以下形式: 最小化 f(x),其中 x 是 n 维向量,f(x) 是一个实值函数,称为目标函 ......
梯度 机器

机器学习-半正定规划

1、概念解释 (1)什么是半正定规划? 半正定规划(Semi-Definite Programming,简称SDP) 是一类凸优化问题,其中的变量可组织成半正定对称矩阵形式,且优化问题的目标函数和约束都是这些变量的线性函数。 (2)什么是对称矩阵? 对称矩阵是指一个矩阵的元素关于主对角线对称。换句话 ......
机器

机器学习-二次规划

1、概念解释 (1)什么是半正定矩阵? 半正定矩阵是指一个方阵(即行数等于列数的矩阵),满足以下条件之一: 对于任意非零向量x,都有x^T * A * x ≥ 0,其中 A 表示该矩阵的转置。 所有特征值(eigenvalue)都大于或等于零。 简单来说,一个半正定矩阵的特点是它的所有特征值非负,或 ......
机器

spark学习

Spark提供了6大组件: Spark Core:Spark Core 是 Spark 的基础,它提供了内存计算的能力,是分布式处理大数据集的基础。它将分布式数据抽象为弹性分布式数据集(RDD),并为运行在其上的上层组件提供 API。所有 Spark 的上层组件都建立在 Spark Core 的基础 ......
spark

机器学习-拉格朗日乘子法

1、概念解释 (1)什么是拉格朗日乘子法? 拉格朗日乘于法(Lagrange multipliers) 是一种种寻找多元函数在一组约束下的极值的方法。通过引入拉格朗日乘子,可将有d个变量与k个约束条件的最优化问题转化为具有d+k个变量的无约束优化问题求解。 2、基本演算 ......
乘子 机器

机器学习-奇异值分解

1、概念介绍 (1)什么是线性无关的行? 线性无关的行指的是矩阵中不可由其中一个或多个行的线性组合表示的行。换句话说,如果一个矩阵中有两个或多个行,且它们不能通过某些系数相乘和相加得到一个零向量,则这些行就是线性无关的。 例如,考虑一个包含三行的3x3矩阵: 1 2 3 4 5 6 7 8 9 我们 ......
机器

Spark的架构角色

......
架构 角色 Spark

Spark 框架模块和Spark的运行模式 -

整个Spark 框架模块包含:Spark Core、 Spark SQL、 Spark Streaming、 Spark GraphX、 Spark MLlib,而后四项的能力都是建立在核心引擎之上 Spark Core:Spark的核心,Spark核心功能均由Spark Core模块提供,是Spa ......
Spark 框架 模块 模式

Spark四大特点

Apache Spark是一个开源的分布式计算框架,拥有四大显著特点: 1. **速度快**:Spark基于内存的运算效率要快100倍以上,基于硬盘的运算效率也要快10倍以上。其先进的DAG调度程序、查询优化程序和物理执行引擎,使得Spark能高效处理数据流。 2. **易用性**:Spark支持J ......
特点 Spark

Spark开始

定义:Apache Spark是用于大规模数据(large-scala data)处理的统一(unified)分析引擎。 简而言之,Spark 借鉴了 MapReduce 思想发展而来,保留了其分布式并行计算的优点并改进了其明显的缺陷。让中间数据存储在内存中提 高了运行速度、并提供丰富的操作数据的A ......
Spark
共1524篇  :1/51页 首页上一页1下一页尾页