分布式hadoop2 hadoop

Hadoop的“前世今生”

Hello，小伙伴们，作为大数据的第一篇博文，肯定要先介绍一下大数据中的“大哥大”Hadoop了，别急，咱们慢慢介绍。一：Hadoop名称由来与很多其他的开源框架不同，Hadoop的名字并不是一个缩写，而是一个生造出来的词。据说是Hadoop之父Doug Cutting用儿子毛绒玩具大象的名字命 ......

Hadoop更新时间 2023-12-18

P2P网络下分布式文件共享场景的测试

P2P网络介绍 P2P是Peer-to-Peer的缩写，“Peer”在英语里有“对等者、伙伴、对端”的意义。因此，从字面意思来看，P2P可以理解为对等网络。国内一些媒体将P2P翻译成“点对点”或者“端对端”，学术界则统一称为对等网络(Peer-to-Peer networking)或对等计算(Pee ......

分布式场景文件网络 P2P更新时间 2023-12-18

第三章分布式配置中心

1. 简介为什么需要分布式配置中心分布式配置中心是为了解决在分布式系统中进行配置管理的需求而引入的。在传统的单体应用中，通常使用配置文件集中管理系统的配置信息。然而，在分布式系统中，由于系统规模变大、节点众多，并且可能部署在不同的服务器上，传统的配置文件方式会面临一些挑战。首先，配置文件的修改 ......

分布式第三章更新时间 2023-12-18

Hadoop Yarn Tool接口接入

项目搭建参考 Java实现对Hadoop HDFS的API操作 1.驱动类 package cn.coreqi.mapreduce.tool; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.util.Too ......

接口 Hadoop Yarn Tool更新时间 2023-12-17

Hadoop Yarn 调度器多队列

1.容量调度器多队列 1.为何需要多队列调度器默认就1个default队列，不能满足生产的要求。 1个队列在任务极限的情况下，容易资源耗尽。特殊时期通过对任务的区分可以保证重要的任务队列资源充足按照框架区分队列，如hive/spark/flink 每个框架的任务放入指定的队列(企业用的不是特别 ......

队列 Hadoop Yarn更新时间 2023-12-17

使用分布式锁实现定时任务的精确调度

使用分布式锁实现定时任务的精确调度在分布式系统中，实现定时任务的精确调度是一项具有挑战性的任务。由于分布式环境中存在多个节点，传统的定时任务可能会出现并发执行、重复执行或者错过执行的问题。为了解决这些问题，我们可以使用分布式锁来实现定时任务的精确调度。准备工作在开始之前，我们需要准备以下环境和 ......

分布式任务更新时间 2023-12-17

Hadoop YARN生产环境核心配置参数

1.ResourceManager相关配置参数说明默认值备注 yarn.resourcemanager.scheduler.class 配置调度器,默认为容量调度器(Apache) org.apache.hadoop.yarn.server.resourcemanager.scheduler ......

核心参数环境 Hadoop YARN更新时间 2023-12-17

Hadoop YARN

1.Yarn资源调度器 Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 1.Yarn基础架构 Yarn主要由ResourceManager、NodeManager、Applicatio ......

Hadoop YARN更新时间 2023-12-16

MongoDB中的分布式集群架构

MongoDB 中的分布式集群架构前言 Replica Set 副本集模式副本集写和读的特性 Sharding 分片模式分片的优势 MongoDB 分片的组件分片键 chunk 是什么分片的算法哈希分片范围分片总结参考 MongoDB 中的分布式集群架构前言前面我们了解了 Mo ......

分布式集群架构 MongoDB更新时间 2023-12-16

Hadoop 数据压缩

1.概述 1.好处 & 坏处优点：减少磁盘IO、减少磁盘存储空间缺点：增加CPU开销 2.压缩的原则运算密集型的Job，少用压缩 IO密集型的Job，多用压缩 2.MR 支持的压缩编码 1.压缩算法对比介绍压缩格式 Hadoop自带? 算法文件扩展名是否可切片换成压缩格式后,原来的程序 ......

数据 Hadoop更新时间 2023-12-16

Hadoop快速入门

Hadoop快速入门一、大数据思维分而治之所谓“分而治之”，就是把一个复杂的算法问题按一定的“分解”方法分为等价的规模较小的若干部分，然后逐个分别找出各部分的解，再把各部分的解组成整个问题的解。传统的计算都是基于内存去完成的，但是内存是有限的，数据量太大，导致无法在较短时间内迅速解决，也就是 ......

Hadoop更新时间 2023-12-16

Windows电脑上的多开工具与分布式计算的关系

在Windows电脑上，多开工具和分布式计算之间存在着一定的关系。多开工具是一类软件，可以帮助用户在一台电脑上同时打开多个相同或不同的应用程序实例，从而提高工作效率。而分布式计算则是利用多台计算机的闲置资源来共同完成复杂的计算任务，通过将任务分发到各个计算节点上并将计算结果汇总，从而加快计算速度和提 ......

分布式 Windows 工具电脑更新时间 2023-12-16

Redis分布式锁的扩展方法

分布式锁代码 #region 秒杀业务测试 private static readonly string redisConnectionStr = "127.0.0.1:6379,connectTimeout=5000,allowAdmin=false,defaultDatabase=1"; /// ......

分布式方法 Redis更新时间 2023-12-15

分布式存储

分布式存储分布式存储的思想是什么分布式存储的思想是将数据分散存储在多个节点上，以提高数据的可靠性、可扩展性和性能。它基于以下几个核心思想：数据分散：将数据切分成多个块或对象，并将它们存储在不同的节点上。这样可以避免单点故障，提高系统的可靠性。冗余备份：为了保证数据的可靠性，每个数据块通常会有 ......

分布式更新时间 2023-12-14

SpringCloud Seata【解决分布式事务的问题】安装

SpringCloud Seata【解决分布式事务的问题】安装 1. 问题引出 1.1 单机单库（多表）处理事务示意图 1.2 分布式微服务架构下的数据库事务示意图图片梳理：用户购买商品的业务逻辑。整个业务逻辑由3个微服务提供支持：仓库服务：对给定商品扣除商品数量订单服务：根据采购需求创建订 ......

分布式 SpringCloud 事务问题 Seata更新时间 2023-12-14

Hadoop MapReduce框架原理

1.InputFormat数据输入 1.数据切片与MapTask并行度决定机制一个Job的Map阶段并行度由客户端在提交Job时的切片数决定每一个Split切片分配一个MapTask并行实例处理默认情况下，切片大小 = BlockSize 切片时不考虑数据集整体，而是逐个针对每一个文件单独切片 ......

MapReduce 框架原理 Hadoop更新时间 2023-12-14

.net core 分布式锁之基于 Redis 的 RedLock

使用场景分布式锁的业务场景涉及到并发控制、任务调度、缓存更新、分布式事务和防止重复操作等方面，能够保证分布式系统的数据一致性和正确性。并发控制：当多个线程或进程同时访问共享资源时，使用分布式锁可以确保只有一个线程或进程能够访问该资源，避免数据竞争和并发冲突。分布式任务调度：在分布式系统中，多个 ......

分布式 RedLock Redis core net更新时间 2023-12-14

探索服务网格与 OpenTelemetry 的协同之分布式跟踪

在上一篇文章中，介绍了如何在 k8s 中无侵入安装 Otel 探针并实现了无侵入（某些语言还无法实现，比如 Go 的 eBPF 对内核的苛刻要求）的分布式跟踪。这篇文章发出后有读者评论 javaagent 的“无侵入”一说，这里有必要解释下。“无侵入”主要指的是不需要修改应用程序的业务逻辑代码 ......

网格分布式 OpenTelemetry更新时间 2023-12-14

Spring Cloud Seata系列：基于AT模式实现分布式事务

目录前提Seata的AT模型流程梳理一阶段：二阶段-回滚二阶段-提交脏写问题写隔离读隔离优缺点AT与XA的区别实现AT模式 https://seata.io/zh-cn/docs/dev/mode/at-mode AT模式同样是分阶段提交的事务模型，不过缺弥补了XA模型中资源锁定周期过长的缺陷。前 ......

分布式事务模式 Spring Cloud更新时间 2023-12-14

R语言贝叶斯Metropolis-Hastings Gibbs 吉布斯采样器估计变点指数分布分析泊松过程车站等待时间|附代码数据

原文链接：http://tecdat.cn/?p=26578 原文出处：拓端数据部落公众号最近我们被客户要求撰写关于吉布斯采样器的研究报告，包括一些图形和统计输出。指数分布是泊松过程中事件之间时间的概率分布，因此它用于预测到下一个事件的等待时间，例如，您需要在公共汽车站等待的时间，直到下一班车到 ......

Metropolis-Hastings Metropolis Hastings 车站指数更新时间 2023-12-13

Hadoop 数据类型及序列化

1.Hadoop数据类型 Java类型 Hadoop Writable类型 Boolean BooleanWritable Writable Writable Writable Writable Writable Writable Writable Writable Writable 2.为何Had ......

序列类型数据 Hadoop更新时间 2023-12-13

Hadoop MapReduce编程规范

用户编写的程序分为三个部分:Mapper、Reducer和Driver 1.Mapper阶段用户自定义的Mapper要继承自己的父类 Mapper的输入数据是KV对的形式（KV的类型可自定义） Mapper中的业务逻辑写在map()方法中 Mapper的输出数据是KV对的形式（KV的类型可自定义） ......

MapReduce Hadoop更新时间 2023-12-13

select for update在springboot里实现分布式锁

// mapper，注意，这里的参数最好就是主键或者唯一键，否则产生的是表锁 @Select("<script> select* from foo where id = #{id} for update</script>") Foo selectForUpdateById(@Param("id") ......

分布式 springboot select update for更新时间 2023-12-12

torch 多进程训练和分布式训练

通常来说，多进程没有涉及到梯度同步的概念。分布式则设计梯度同步。分布式中，如果用cpu，则指定gloo后端。用gpu，则指定nccl后端。多进程训练只需要mp.spawn即可，每个进程只负责自己的模型训练，不涉及梯度同步。例子 https://www.geeksforgeeks.org/mu ......

分布式进程 torch更新时间 2023-12-12

Hadoop NameNode(SecondaryNameNode) Fsimage和Edits解析

NameNode被格式化之后，将在NameNode目录下产生一些文件 1.Fsimage文件 Fsimage文件是HDFS文件系统元数据的一个永久性的检查点，其中包含HDFS文件系统的所有目录和文件inode的序列化信息 2.Edits文件 Edits文件存放了HDFS文件系统的所有更新操作的路径， ......

SecondaryNameNode NameNode Fsimage Hadoop Edits更新时间 2023-12-12

SQL server不同域之间搭建分布式可用性组

配置 Always On 分布式可用性组要创建分布式可用性组，必须创建两个具有各自侦听程序的可用性组。然后将这些可用性组合并到分布式可用性组中。两个可用性组无需处于同一位置：它们可以跨物理机、虚拟机；跨内网、云上；跨有域、无域；甚至跨平台（如Linux、Windows）。只要两个可用性组可以进 ......

可用性分布式之间 server SQL更新时间 2023-12-11

Hadoop 配置的优先级

从低到高 1.默认配置默认文件文件存放在Hadoop的jar包中的位置 core-default.xml hadoop-common-3.3.6.jar/core-default.xml hdfs-default.xml hadoop-hdfs-3.3.6.jar/hdfs-default.xm ......

优先级 Hadoop更新时间 2023-12-11

分布式配置中心

为什么要有分布式配置中心： 1、项目背景现在有一个项目，使用SSM进行开发的，配置文件的话我们知道是一个叫做application.properties的文件。 #业务参数相关配置 user.register.default.name=小强 user.register.default.sex=男 ......

分布式更新时间 2023-12-10

分布式缓存

分布式系统中常用的缓存方案有哪些？客户端缓存：页面和浏览器缓存，APP缓存，H5缓存，localStorage和sessionStorage CDN缓存：内存存储：数据的缓存内容分发：负载均衡 nginx缓存：本地缓存，外部缓存数据库缓存：持久层缓存（mybatis，hibernate多级缓 ......

分布式缓存更新时间 2023-12-10

分布式事务

什么是分布式事务？对于分布式系统而言，需要保证分布式系统中的数据一致性，保证数据在子系统中始终保持一致，避免业务出现问题。简单的说，在分布式系统上，一次大的操作由不同的小操作组成，这些小的操作分布在不同的服务节点上，且属于不同的应用，分布式事务需要保证这些小操作要么全部成功，要么全部失败。举个 ......

分布式事务更新时间 2023-12-10

共3000篇 :6/100页 首页上一页3456789下一页尾页