分布式hadoop2 hadoop

分布式锁

为什么需要分布式锁? 在多线程环境中,如果多个线程同时访问共享资源(例如商品库存、外卖订单),会发生数据竞争,可能会导致出现脏数据或者系统问题,威胁到程序的正常运行。我们需要使用互斥操作对共享资源进行保护,即同一时刻只允许一个线程访问共享资源,其他线程需要等待当前线程释放后才能访问。这样可以避免数据 ......
分布式

Java实现对Hadoop HDFS的API操作

1.配置Hadoop的Windows客户端 Hadoop 配置Windows 客户端 2.新建Maven项目[略] 3.添加依赖 <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-client --> <dependen ......
Hadoop Java HDFS API

Hadoop 配置Windows 客户端

1.根据Hadoop版本下载Windows依赖,并放置到非中文目录下 https://github.com/cdarlint/winutils 2.配置环境变量 HADOOP_HOME -> 放置的目录地址 PATH -> 追加%HADOOP_HOME%\bin 3.测试环境 双击winutils. ......
客户端 Windows 客户 Hadoop

Hadoop HDFS 文件块大小

HDFS中的文件在物理上是分块存储(Block),块的大小可以通过配置参数(dfs.blocksize)来配置,默认大小在Hadoop2.x/3.x版本中是128M,1.x版本中是64M. 建议配置为物理机硬盘每秒的读取速度,如机械硬盘则建议为128M,SSD则配置为256M。 ......
大小 文件 Hadoop HDFS

基于Docker容器搭建hadoop完全分布式集群环境

简介 物理机:windows10 宿主机:Centos7虚拟机,需要安装Docker服务 hadoop集群节点:3个centos7的容器,hadoop1、hadoop2、hadoop3 组件: 容器镜像:Centos7 Docker CE 24.0.7 JDK1.8.0_181 Hadoop3.1. ......
分布式 集群 容器 环境 Docker

分布式ID

1.分布式ID 什么是 ID? 日常开发中,我们需要对系统中的各种数据使用 ID 唯一表示,比如用户 ID 对应且仅对应一个人,商品 ID 对应且仅对应一件商品,订单 ID 对应且仅对应一个订单。 简单来说,ID 就是数据的唯一标识。 什么是分布式 ID? 分布式 ID 是分布式系统下的 ID。 举 ......
分布式

Hadoop 常用端口号

端口名称 Hadoop2.x Hadoop3.x HDFS NameNode内部通信端口 8020 / 9000 8020 / 9000 / 9820 HDFS NameNode HTTP UI 50070 9870 YARN MapReduce查看执行任务端口 8088 8088 历史服务器通信端 ......
口号 常用 Hadoop

鸿蒙原生应用开发——分布式数据对象

01、什么是分布式数据对象 在可信组网环境下,多个相互组网认证的设备将各自创建的对象加入同一个sessionId,使得加入的多个数据对象之间可以同步数据,也就是说,当某一数据对象属性发生变更时,其他数据对象会检测到这一变更,同时将自身属性更新。此时,该sessionId下的所有数据对象属性相同,这样 ......
鸿蒙 应用开发 分布式 对象 数据

.NET使用分布式网络爬虫框架DotnetSpider快速开发爬虫功能

前言 前段时间有同学在微信群里提问,要使用.NET开发一个简单的爬虫功能但是没有做过无从下手。今天给大家推荐一个轻量、灵活、高性能、跨平台的分布式网络爬虫框架(可以帮助 .NET 工程师快速的完成爬虫的开发):DotnetSpider。 注意:为了自身安全请在国家法律允许范围内开发网络爬虫功能。 框 ......
爬虫 分布式 DotnetSpider 框架 功能

分布式系统-异步

异步,是分布式系统重要的设计原则之一。 为什么异步很重要呢? 试想一个场景,在电商业务中,用户下单并支付成功后,需要给店家推送一个消息,告诉店家来订单了,抓紧发货。 这个推送功能,如果和支付回调接口做成同步,会有什么问题呢? 要知道,系统总是不可能绝对稳定的。如果推送接口异常或者超时了,主流程就会受 ......
分布式 系统

分布式系统-负载均衡

分布式系统中,业务系统都是集群部署,而且一般会做微服务化。那么,从一个系统rpc请求到另一个系统,应该路由到哪一台节点呢?这,就涉及到负载均衡。 负载均衡的核心,便是负载均衡算法,算法有很多,主要介绍其中六种,并说一说各自算法的优缺点。 1. 加权随机 加权随机,顾名思义,就是路由到哪一台节点,是通 ......
分布式 系统

虚拟机运行Hadoop | 各种问题解决的心路历程

ps:完成大数据技术实验报告的过程,出项各种稀奇古怪的问题。(知道这叫什么吗?经济基础决定上层建筑,我当时配置可能留下了一堆隐患,总之如果有同样的问题,希望可以帮到你) 一、虚拟机网络连接不通的各种情况 我这里遇到的是,三台虚拟机,两台piing百度不同 原因:改了下内存,重启就又未知的网络名称 解 ......
心路 历程 Hadoop 问题

分布式资源调度框架YARN

1、YARN=Yet Another Resource Negotiator 2、主从架构,一主多从3、主=ResourceManager,从=NodeManager4、ResourceManager由ApplicationManager和ResourceScheduler组成5、NodeManag ......
分布式 框架 资源 YARN

redis分布式锁实现原理

在.net core 中,可以使用StackExchange.Redis实现redis分布式锁, /// <summary>/// 分布式锁/// </summary>/// <param name="Redis">RedisDB</param>/// <param name="Key">锁标识</ ......
分布式 原理 redis

分布式系统的困难点

分布式系统在技术上需要注意的问题 问题1:异构系统的不标准问题 问题2:系统架构中的服务依赖性问题 问题3:故障发生的概率更大 问题4:多层架构的运维复杂度更大 ......
分布式 难点 系统

分布式事务-Seata解决方案

一、定义 Seata解决方案是分布式事务解决方案之一。常用的分布式事务解决方案有:2PC,3PC,TCC,SAGA(seata)、本地消息表、MQ消息事务、最大努力通知。 Seata是一款分布式解决方案,致力于提供高性能和简单易用的分布式事务服务。提供事务模式有:AT,TCC,SAGA,XA。其中A ......
分布式 解决方案 事务 方案 Seata

分布式主键

核心概念 :: ShardingSphere https://shardingsphere.apache.org/document/current/cn/features/sharding/concept/ 分布式主键 传统数据库软件开发中,主键自动生成技术是基本需求。而各个数据库对于该需求也提供了 ......
分布式

Zookeeper——分布式一致性协议及Leader选举原理

一、引言 随着业务的增长,单体架构发展为分布式架构,大大提升了业务的处理能力,但同时也带来了很多单体架构不存在的问题,如: 各节点之间网络通信的异常以及因其引起的脑裂问题(网络分区)。 引出“三态”。在单体架构中只会存在“成功”或“失败”两种结果,但是在分布式架构中由于网络异常将会出现“未知”的结果 ......
一致性 分布式 Zookeeper 原理 Leader

最新版本——Hadoop3.3.6单机版完全部署指南

大家好,我是独孤风,大数据流动的作者。 本文基于最新的 Hadoop 3.3.6 的版本编写,带大家通过单机版充分了解 Apache Hadoop 的使用。本文更强调实践,实践是大数据学习的重要环节,也能在实践中对该技术有更深的理解,所以一些理论知识建议大家多阅读相关的书籍(都在资料包中)。 本文档 ......
单机版 单机 Hadoop3 版本 指南

hive执行sql报错 FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask

前言: 执行hive sql报错,sql逻辑是两个表左连接并将数据插入新的表中。 报错信息: [ERROR] 2023-12-05 15:49:49.165 +0800 - execute sql error: Error while processing statement: FAILED: Ex ......
hive MapredLocalTask Execution FAILED apache

使用分布式事务 Seata 的 TCC 模式

Seata 的 TCC 模式需要通过人工编码来实现数据的回滚恢复,有点麻烦,但是性能最高。TCC 是 3 个方法的首字母缩写,即 Try 方法、Confirm 方法、Cancel 方法。Try 方法进行资源的检查和冻结,Confirm 方法是当所有事务都成功后调用的方法,Cancel 方法是当整体事 ......
分布式 事务 模式 Seata TCC

Seata 分布式事务

Seata 分布式事务 ​#Seata中间件#​ Seata是 2019 年 1 月份蚂蚁金服和阿里巴巴共同开源的分布式事务解决方案。致力于提供高性能和简单易用的分布式事务服务,为用户打造一站式的分布式解决方案。 官网地址:http://seata.io/ CAP定理和Base理论 这两个在前面弄N ......
分布式 事务 Seata

StackGres 数据库平台工程,使用 Citus + Patroni 创建生产级高可用分布式 PostgreSQL 分片集群

系列 StackGres, 可私有部署的云原生数据库平台工程 StackGres 数据库平台工程功能介绍与快速上手 StackGres 1.6 数据库平台工程集群配置管理(K8S Pods/PostgreSQL/PgBouncer) StackGres 1.6 数据库平台工程,集群高可用(Patro ......

hadoop大数据安装

一、hadoop的安装1、hadoop的安装wget https://archive.apache.org/dist/hadoop/common/hadoop-3.1.3/hadoop-3.1.3.tar.gz2、解压tar -zxvf hadoop-3.1.3.tar.gz -C /opt/mod ......
数据 hadoop

hadoop优化之yarn调优

yarn.nodemanager.resource.memory-mb表示该节点上YARN可使用的物理内存总量,默认是8192(MB),注意,如果你的节点内存资源不够8GB,则需要调减小这个值,而YARN不会智能的探测节点的物理内存总量。 yarn.nodemanager.vmem-pmem-rat ......
hadoop yarn

start-dfs.sh启动hadoop,jps没显示

查看当前系统的名称 [root@master dfs]# cat /etc/hosts 192.168.128.78 hadoop01 查看core-site.xml <property> <name>fs.defaultFS</name> <value>hdfs://hadoop01:9000</ ......
start-dfs hadoop start dfs jps

HydroOJ 踩坑指南(1)狡猾的分布式官方文档

本系列旨在记录使用HydroOJ时的一些坑点,更全的说明文档请查看官方文档。 欢迎联系本人 QQ 补充: 2422609586. HydroOJ 官方QQ群: 1085853538. 入门第一坑:官方文档不止一处! 都说学习项目要先认真读文档,HydroOJ的文档使用了分布式阅读系统,并异地多中心部 ......
分布式 HydroOJ 文档 指南 官方

使用Slurm集群进行分布式图计算:对Github网络影响力的系统分析

本文在华为云弹性云服务器集群中部署Slurm作业调度系统,并运行针对Github协作网络影响力分析的分布式图计算应用程序。 ......
分布式 集群 影响力 Github 系统

关于hadoop hive中使用hive分区功能

很多人习惯了使用第三方的工具 去连接hive或者hbase数据库,并且 使用其中的sql编辑器进行失去了语句 的使用来进行数据的分析等一系列的 操作,但是一些shell命令也可以在其中 运行例如: 1. set hive.exec.dynamic.partition=true; 2. set hiv ......
hive 功能 hadoop

使用分布式事务 Seata 的 AT 模式

有了上篇博客实现 XA 模式的基础,本篇博客在实现 AT 模式时,不需要修改任何代码,只需要增加一张数据库表,修改以下 application.yml 配置即可实现。AT 模式也是分两个阶段提交的事务模型,它缺弥补了 XA 模型中资源锁定周期过长的问题。 其实现的两个阶段的工作原理如下: 第一阶段注 ......
分布式 事务 模式 Seata AT
共3000篇  :7/100页 首页上一页7下一页尾页