分布式hadoop2 hadoop

分布式任务调度框架之Elastic-Job

1、前言 1.1、什么是任务调度? 我们可以先思考一下下面业务场景的解决方案: 某电商系统需要在每天上午 10点,下午3点,晚上8点发放一批优惠券。 某银行系统需要在信用卡到期还款日的前三天进行短信提醒。 某财务系统需要在每天凌晨 0:10结算前一天的财务数据,统计汇总。 12306 会根据车次的不 ......
分布式 Elastic-Job 框架 任务 Elastic

分布式技术原理与算法解析 02 - 分布式计算

分布式计算模式之MR MapReduce就是将复杂的、难以直接解决的大问题,分割为规模较小的、可直接解决的小问题。这些子问题相互独立且和原问题形式相同,可递归地求解,然后将子问题的答案合并。核心步骤为 1.分解原问题 2.求解子问题 3.合并解 工作原理 Map对应分,Reduce对应合。主要包括3 ......
分布式 算法 原理 技术 02

Hadoop 学习

关于Hadoop Hadoop崩溃集群重启 先停掉进程,sbin/stop-yarn.sh sbin/stop-dfs.sh。然后删除每个集群上datanode的信息。默认在/tmp。如果配置了该目录,就去指定目录删除。data目录和log目录,最后执行格式化namenode format,再重启H ......
Hadoop

C#/.NET Core跨平台分布式微服务/DDD领域驱动架构设计VIP实战

阿笨NET课程详情 腾讯课堂官网 https://abennet.ke.qq.com/ ......
架构 实战 领域 Core NET

hadoop 第二期

Hive 启动hive 使用命令`hive` ==输入命令之后要有一个 ; 结尾!!!!!!!== DDL命令 1.创建数据表 create table lxl( num int, name string, gender string ) row formate delimited fields t ......
hadoop

分布式技术原理与算法解析 02 - 分布式资源管理与负载调度

分布式体系结构之集中式结构 集中式结构就是由一台或多台机器组成中央服务器,所有数据存储于此,所有业务也先由其处理。多节点与中央服务器连接,并将自己信息汇报给中央服务器,由中央服务器同一进行资源和任务调度。特点是部署结构简单,中央节点无需考虑对任务的多节点部署,节点服务器间无需通信和协作,只要与中央服 ......
分布式 算法 资源管理 原理 资源

分布式技术原理与算法解析 01 - 分布式协调与同步

关于 电商系统:最看重吞吐量,为了更多的处理用户访问和订单业务 IoT:最看重资源占用率,在某些设备上资源都是KB级的 电信业务:最看重响应时间、完成时间、可用性,保证通话质量 HPC:最看重加速比,这种计算特带是耗时长 大数据:最看重加速比,处理时间较HPC短,但也到达小时级 云计算:最看重操作耗 ......
分布式 算法 原理 技术 01

二项分布与泊松分布

二项分布 基本概念 n次伯努利实验正好出现k次成功的概率为: $$b(k;n,p) = \binom{n}{k}p^kq^{n-k},k=0,1,2,...,n$$ 其他性质上篇已经讲了,这里说新的。 首先是中心项与最可能成功次数。$b(k;n,p)$最大的项被称之为中心项,对应的k称为最可能成功次 ......

全站抓取与分布式增量抓取

scrapy的crawlspider爬虫 学习目标: 了解 crawlspider的作用 应用 crawlspider爬虫创建的方法 应用 crawlspider中rules的使用 1、crawlspider是什么 回顾之前的代码中,我们有很大一部分时间在寻找下一页的url地址或者是内容的url地址 ......
分布式 增量 全站

.NET+Consul+Ocelot实现微服务分布式部署

一、ConSul和Ocelot Consul:是一个服务网格解决方案,提供了一个功能齐全的控制平面,具有服务发现、配置和分段功能。这些功能中的每一项都可以根据需要单独使用,也可以一起使用来构建一个完整的服务网格。Consul需要一个数据平面,并支持代理和原生集成模型。Consul提供了一个简单的内置 ......
分布式 Consul Ocelot NET

Redis分布式锁篇

18、什么是分布式锁? 概述:在分布式系统中,多个线程访问共享数据就会出现数据安全性的问题。而由于jdk中的锁要求多个线程在同一个jvm中,因此在分布式系统中无法使 用jdk中的锁保证数据的安全性,那么此时就需要使用分布式锁。 作用:可以保证在分布式系统中多个线程访问共享数据时数据的安全性 举例: ......
分布式 Redis

分布式事务解决方案

参考:https://blog.csdn.net/a745233700/article/details/122402303 一、2PC: 2PC,两阶段提交,将事务的提交过程分为资源准备和资源提交两个阶段,并且由事务协调者来协调所有事务参与者,如果准备阶段所有事务参与者都预留资源成功,则进行第二阶段 ......
分布式 解决方案 事务 方案

最强分布式搜索引擎——ElasticSearch

最强分布式搜索引擎——ElasticSearch 本篇我们将会介绍到一种特殊的类似数据库存储机制的搜索引擎工具——ES elasticsearch是一款非常强大的开源搜索引擎,具备非常多强大功能,可以帮助我们从海量数据中快速找到需要的内容 我们会从下面几个角度来讲解ElasticSearch: ES ......

伯努利分布及衍生分布、随机游走

伯努利实验 伯努利实验概念及性质 定义:事件域为:$\mathcal F = { \varnothing ,A,\bar A,\Omega }$,只两种可能结果的试验称为伯努利实验。 现考虑重复n次独立试验的伯努利实验(这里每个$A$概率不变),这种实验称之为n重伯努利实验,记为$E^n$。 其样本 ......

春哥甲(Hadoop雷点记录)

“如果你也被春哥击倒,那么套上这个春哥甲吧!!!” 这篇博客主要记录在学习Hadoop中遇到的各种雷点坑点! WordCountAndLen 在这一节,我们开始尝试使用自定义的类型:WordCountAndLen去实现我们原有的WordCount问题! 首先附上WordCountAndLen类的定义 ......
Hadoop

分布式版本控制系统——Git 常用指令

分布式版本控制系统——Git 常用指令 一、Git优缺点 缺点:占用磁盘空间较大 优点:版本切换时非常快,因为每个版本都是完整的文件快照,切换版本时直接恢复目标版本的快照即可 特点:空间换时间 二、GIt中的三个区域 使用Git管理的项目,拥有三个区域,分别是工作区、暂存区、Git仓库 三、中的三种 ......
分布式 控制系统 指令 常用 版本

分布式锁

参考:https://www.cnblogs.com/wangyingshuo/p/14510524.html 介绍 多线程环境下控制对共享资源的访问以保证数据一致性。 特点:跨进程、跨服务、跨服务器 互斥性 ——任意时刻,只有一个客户持有锁 超时释放——持有锁超时,可以释放,防止死锁 可重入——一 ......
分布式

云原生K8S精选的分布式可靠的键值存储etcd原理和实践

今天再下一个Go语言编写分布式键值存储的云原生组件ectd,了解其定义理、应用场景和特性,熟悉其整体架构和常用术语,进一步研究其读写和日志复制的原理,最后完整部署单示例和多实例集群和介绍一些常见命令。 ......
分布式 原理 etcd K8S K8

Springboot 系列 (23) - Springboot+HBase 大数据存储(一)| 安装配置 Apache Hadoop

Apache HBase 是 Apache Hadoop 项目的子项目,是 Hadoop Database 的简称。HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用 HBase 技术可在廉价 PC Server 上搭建起大规模结构化存储集群。HBase 不同于一般的关系数据库 ......
Springboot 数据 Apache Hadoop HBase

JMeter+Jenkins分布式压测持续集成

Jenkins job配置 参数化构建 运行分布式shell脚本:sh ... 生成测试报告 配置生成html测试报告,需要安装插件 HTML Publisher JMeter 性能脚本 编写jmeter脚本/自定义Java脚本,脚本参数化,并且可带参数命令行执行 自定义Java脚本 jmeter脚 ......
分布式 Jenkins JMeter

hadoop 安装

deban 安装hadoop 文档 1.使用的kvm 创建的虚拟机,创建虚拟机的同时创建 hadoop用户 建议使用最简单的安装方式 2.配置 /etc/network/interfaces文件 3.配置/etc/hosts文件,添加如下内容 192.168.20.101 hadoop-master ......
hadoop

7-springboot-多数据源事务管理-jta+atomikos的分布式事务

jta+atomikos的分布式事务 <!--jta+atomikos分布式事务--><dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-jta-atomikos</arti ......

爬取的数据,存到mysql中、爬虫和下载中间件、加代理,cookie,header,加入selenium、去重规则源码分析(布隆过滤器)、scrapy-redis实现分布式爬虫

# 1 scrapy架构 -爬虫:写的一个个类 -引擎: -调度器:排队,去重 -下载器 -pipline -下载中间件 -爬虫中间件 # 2 命令 -scrapy startproject 项目名 -scrapy gensipder 爬虫名 网址 -scrapy crawl 爬虫名字 -run.p ......

0 爬取的数据,存到mysql中 、1 爬虫和下载中间件、 2 加代理,cookie,header,加入selenium、3 去重规则源码分析(布隆过滤器) 、4 scrapy-redis实现分布式爬虫

0 爬取的数据,存到mysql中 # 存到mysql中 class FirstscrapyMySqlPipeline: def open_spider(self, spider): print('我开了') self.conn = pymysql.connect( user='root', pass ......

Solon2 接口开发: 分布式 Api Gateway 开发预览

建议使用专业的分布式网关产品,比如: nginx apisix [推荐] k8s ingress controller 等... 对 Solon 来讲,只有 Gateway:它调用本地接口时,则为本地网关;调用远程接口时,则为分布式网关。 1、一个简单的分布式接口网关效果预览 基于上一节的 ApiG ......
分布式 接口 Gateway Solon2 Solon

分布式锁的实现

多线程对同一资源的竞争,需要用到锁,例如Java自带的Synchronized、ReentrantLock。但只能用于单机系统中,如果涉及到分布式环境(多机器)的资源竞争,则需要分布式锁。分布式锁的主要作用: 保证数据的正确性: 比如:秒杀的时候防止商品超卖,表单重复提交,接口幂等性。 避免重复处理 ......
分布式

django 使用django-bootstrap4插件时,使表单呈2列或其他列分布时的写法

前言 django 使用django-bootstrap4插件时,使表单呈2列或其他列分布时的写法。 在django-bootstrap4中没有内置的方法设置表单内容成几列分布,这里采用bootstrap4的栅格布局实现效果 具体操作 forms.py class RegisterForm(User ......

分布式理论

一、分布式理论 1.CAP理论 CAP理论是说对于分布式数据存储,最多只能同时满足一致性(C,Consistency)、可用性(A, Availability)、分区容忍性(P,Partition Tolerance)中的两者。 1.一致性 是指对于每一次读操作,都能够读到最新写入的数据,且每个节点 ......
分布式 理论

C++ 迪利克雷(Dirichlet)分布

遇到一个要使用 dirichlet 分布的情形,发现 C++ 标准库中没有现成的。查阅维基百科发现,虽然它挺复杂,但是它跟 Gamma 分布有如下关系: 设有 K 个相互独立且分别满足 Gamma 分布的分布: $$Y_1 \sim Gamma(\alpha_1, \theta), ..., Y_K ......
Dirichlet

分布式协议与算法实战 - 分布式算法 gossip QuorumNWR PBFT ZAB

Gossip 二阶段提交协议和Raft需要大部分节点能够工作,在极端情况,如只有一个节点能正常运行,这些方法就不适用了。根据Base理论要实现最终一致性。 Gossip协议利用一种随机、带有传染性的方式,将信息传播到网络中,并在一定时间内使所有节点数据一致。 直接邮寄(Direct Mail):直接 ......
分布式 算法 实战 QuorumNWR gossip