分布式 集群ceph

容灾恢复 | 记一次K8S集群中etcd数据快照的备份恢复实践

描述:在 Kubernetes 集群中所有操作的资源数据都是存储在 etcd 数据库上, 所以防止集群节点瘫痪未正常工作或在集群迁移时,以及在出现异常的情况下能尽快的恢复集群数据,则我们需要定期针对etcd集群数据进行相应的容灾操作。 在K8S集群中或者Docker环境中,我们可以非常方便的针对 ... ......
快照 集群 备份 数据 etcd

【NLP 系列】Bert 词向量的空间分布

我们知道Bert 预训练模型针对分词、ner、文本分类等下游任务取得了很好的效果,但在语义相似度任务上,表现相较于 Word2Vec、Glove 等并没有明显的提升。 ......
向量 空间 Bert NLP

redis分布式锁的实现

一.正常加锁 当两个用户同时注册一个用户名时,为保证用户名不能重复,因此对其注册的用户名加锁。 具体步骤: 获得用户注册的用户名,进行判断,如果为空则对其进行加锁,保存到数据库,释放锁资源。 二.线程出现阻塞 当A线程加锁后出现阻塞时,导致数据还没有存到数据库,锁的时间便会失效。 B线程便会执行,对 ......
分布式 redis

为K8S集群准备Ceph存储

随着K8S存储接口逐渐成熟并顺势推出CSI接口规范后,原来“in-tree”(树内)模式的很多存储插件也逐步迁移到了“out-of-tree”(树外)模式的CSI插件上,甚至有些原来支持的存储卷类型都被直接移除了(例如在K8S v1.26上直接移除了 glusterfs 卷类型),查阅了一下K8S官 ......
集群 Ceph K8S K8 8S

Eureka高可用集群服务端和客户端配置

微服务应用中,生产环境一般都需要保障服务注册中心的高可用!高可用也分好几个等级,例如:同数据中心(可用Zone区)高可用——》同地域(Region)跨数据中心(可用Zone区)高可用——》全国跨地域(Region)跨数据中心(可用Zone区)高可用——全球跨地域(Region)跨数据中心(可用Zon ......
集群 客户端 客户 Eureka

利用kubeadm部署Kubernetes v1.22.10高可用集群

一、概述 Kubernetes集群控制平面(Master)节点右数据库服务(Etcd)+其它服务组件(Apiserver、Controller-manager、Scheduler等)组成;整个集群系统运行的交互数据都将存储到数据库服务(Etcd)中,所以Kubernetes集群的高可用性取决于数据库 ......
集群 Kubernetes kubeadm 22.10 22

推荐一个分布式单点登录框架XXL-SSO!

有关单点登录(SSO)之前有写过两篇文章 一文读懂 JWT! 看完这篇不能再说不懂SSO原理了! 如果说XXL-JOB你可能并不陌生,它是非常火爆的一个分布式任务调度平台。但其实在该作者还有一个非常优秀的开源项目叫XXL-SSO,这两个个项目都是1000+Star。 XXL-SSO 是一个分布式单点 ......
分布式 框架 XXL-SSO XXL SSO

分布式机器学习:异步SGD和Hogwild!算法(Pytorch)

同步算法的共性是所有的节点会以一定的频率进行全局同步。然而,当工作节点的计算性能存在差异,或者某些工作节点无法正常工作(比如死机)的时候,分布式系统的整体运行效率不好,甚至无法完成训练任务。为了解决此问题,人们提出了异步的并行算法。在异步的通信模式下,各个工作节点不需要互相等待,而是以一个或多个全局... ......
分布式 算法 机器 Hogwild Pytorch

一个容器,但是一整个k8s集群

你可能需要一个快速启动和销毁的 k8s 集群;你可能在资源受限的环境中运行 k8s 集群;你可能是一个完全的初学者,觉得搭建完整的 k8s 套件太难。那么这篇短文可能可以帮到你。 ......
集群 容器 k8s k8 8s

Centos7搭建hadoop3.3.4分布式集群

1、背景 最近在学习hadoop,本文记录一下,怎样在Centos7系统上搭建一个3个节点的hadoop集群。 2、集群规划 hadoop集群是由2个集群构成的,分别是hdfs集群和yarn集群。2个集群都是主从结构。 2.1 hdfs集群规划 | ip地址 | 主机名 |部署服务| |--|--| ......
分布式 集群 Centos7 hadoop3 Centos

从 PyTorch DDP 到 Accelerate 到 Trainer,轻松掌握分布式训练

概述 本教程假定你已经对于 PyToch 训练一个简单模型有一定的基础理解。本教程将展示使用 3 种封装层级不同的方法调用 DDP (DistributedDataParallel) 进程,在多个 GPU 上训练同一个模型: 使用 pytorch.distributed 模块的原生 PyTorch ......
分布式 Accelerate PyTorch Trainer DDP

Ceph RGW误删index对象恢复

版本 [root@control1 ~]# ceph -v ceph version 14.2.22 (ca74598065096e6fcbd8433c8779a2be0c889351) nautilus (stable) 问题 RGW将对象的索引信息存储在 <zone>.rgw.buckets.i ......
对象 index Ceph RGW

多变量两两相互关系联合分布图的Python绘制

本文介绍基于Python中seaborn模块,实现联合分布图绘制的方法。 联合分布(Joint Distribution)图是一种查看两个或两个以上变量之间两两相互关系的可视化图,在数据分析操作中经常需要用到。一幅好看的联合分布图可以使得我们的数据分析更加具有可视性,让大家眼前一亮。 那么,本文就将 ......
分布图 变量 Python

IoT 边缘集群基于 Kubernetes Events 的告警通知实现

背景 边缘集群(基于 树莓派 + K3S) 需要实现基本的告警功能。 边缘集群限制 CPU/内存/存储 资源紧张,无法支撑至少需要 2GB 以上内存和大量存储的基于 Prometheus 的完整监控体系方案(即使是基于 Prometheus Agent, 也无法支撑) (需要避免额外的存储和计算资源 ......
集群 Kubernetes 边缘 Events IoT

大规模 IoT 边缘容器集群管理的几种架构-3-Portainer

前文回顾 大规模 IoT 边缘容器集群管理的几种架构-0-边缘容器及架构简介 大规模 IoT 边缘容器集群管理的几种架构-1-Rancher+K3s 大规模 IoT 边缘容器集群管理的几种架构-2-HashiCorp 解决方案 Nomad 大规模 IoT 边缘容器集群管理的几种架构-3-Portai ......
集群 容器 架构 Portainer 大规模

大规模 IoT 边缘容器集群管理的几种架构-4-Kubeedge

前文回顾 大规模 IoT 边缘容器集群管理的几种架构-0-边缘容器及架构简介 大规模 IoT 边缘容器集群管理的几种架构-1-Rancher+K3s 大规模 IoT 边缘容器集群管理的几种架构-2-HashiCorp 解决方案 Nomad 大规模 IoT 边缘容器集群管理的几种架构-3-Portai ......
集群 容器 架构 大规模 Kubeedge

IoT 边缘集群基于 Kubernetes Events 的告警通知实现(二):进一步配置

上一篇文章 IoT 边缘集群基于 Kubernetes Events 的告警通知实现 目标 告警恢复通知 - 经过评估无法实现 原因: 告警和恢复是单独完全不相关的事件, 告警是 Warning 级别, 恢复是 Normal 级别, 要开启恢复, 就会导致所有 Normal Events 都会被发送 ......
集群 Kubernetes 边缘 Events IoT

大规模 IoT 边缘容器集群管理的几种架构-0-边缘容器及架构简介

📚️Reference: IoT 边缘计算系列文章 什么是边缘容器? 边缘容器的概念 边缘容器是分散的计算资源,尽可能靠近最终用户或设备,以减少延迟、节省带宽并增强整体数字体验。 可以访问互联网的设备数量每天都在增加。有包括但不限于: 智能电视 智能家居 智能手机 智能汽车 物联网 IoT 创造的 ......
容器 架构 边缘 集群 大规模

大规模 IoT 边缘容器集群管理的几种架构-1-Rancher+K3s

前文回顾 大规模 IoT 边缘容器集群管理的几种架构-0-边缘容器及架构简介 📚️Reference: IoT 边缘计算系列文章 Rancher + K3s 简介 Rancher: Kubernetes 统一管理平台, Rancher 是为采用容器的团队提供的一个完整的软件栈。它解决了管理多个 K ......
集群 容器 架构 大规模 边缘

大规模 IoT 边缘容器集群管理的几种架构-2-HashiCorp 解决方案 Nomad

前文回顾 大规模 IoT 边缘容器集群管理的几种架构-0-边缘容器及架构简介 大规模 IoT 边缘容器集群管理的几种架构-1-Rancher+K3s 📚️Reference: IoT 边缘计算系列文章 HashiCorp 解决方案 - Nomad + Docker 简介 Nomad: 一个简单而灵 ......
集群 容器 架构 HashiCorp 大规模

K3S系列文章-使用AutoK3s在腾讯云上安装高可用K3S集群

开篇 《K3s 系列文章》 《Rancher 系列文章》 方案 在腾讯云上安装 K3S 后续会在这套 K3S 集群上安装 Rancher 方案目标 高可用 3 台master 的 k3s 集群 数据备份 k3s 数据备份到 腾讯云对象存储 cos 尽量复用公有云的能力 ~~Tencent Cloud ......
集群 K3S AutoK3s AutoK3 文章

分布式事务解决方案

曾几何时,知了在一家小公司做项目的时候,都是一个服务打天下,所以涉及到数据一致性的问题,都是直接用本地事务处理。 ......
分布式 解决方案 事务 方案

(二) MdbCluster分布式内存数据库——分布式架构

(二) MdbCluster分布式内存数据库——分布式架构 上一篇: (一) MdbCluster分布式内存数据库——基础架构介绍 分布式架构是MdbCluster的核心关键,业界有很多相关的实现,却很少有文章详细的解释每个架构实现背后的细节和这么做的原因。在MdbCluster整个研发和测试的过程 ......
分布式 MdbCluster 架构 内存 数据库

(三) MdbCluster分布式内存数据库——节点状态变化及分片调整

(三) MdbCluster分布式内存数据库——节点状态变化及分片调整 上一篇: (二) MdbCluster分布式内存数据库——分布式架构 昨天我们在测试节点动态扩缩容时,发现了一个小bug。开始时我想当然“头疼医头,脚疼医脚”地安排开发在问题发生的地方修掉这个bug。早上刚好要一起开会,顺便讨论 ......
分布式 节点 MdbCluster 内存 状态

MySQL8.0 高可用集群化 · mysql-shell · mysql-router · docker · 单主多从

MySQL8.0 高可用集群,mysql-shell、mysql-router、docker、单主多从、集群服务参数配置说明、GTID、binlog、AdminAPI 集群管理、负载均衡、读写分离、故障转移 ......
183 mysql 集群 mysql-router mysql-shell

【译】使用 ML.NET 进行机器学习 - 集群完整指南

原文 | Nikola M. Zivkovic 翻译 | 郑子铭 在之前的几篇文章中,我们探索了一些基本的机器学习算法。到目前为止,我们介绍了一些简单的回归算法,分类 算法。我们使用 ML.NET 实现和应用这些算法。到目前为止,我们探索了使用监督学习的算法。这意味着我们始终拥有用于训练机器学习模型 ......
集群 机器 指南 NET ML

Redis避坑指南:为什么要有分布式锁?

JUC提供的锁机制,可以保证在同一个JVM进程中同一时刻只有一个线程执行操作逻辑; 多服务多节点的情况下,就意味着有多个JVM进程,要做到这样,就需要有一个中间人; 分布式锁就是用来保证在同一时刻,仅有一个JVM进程中的一个线程在执行操作逻辑; 换句话说,JUC的锁和分布式锁都是一种保护系统资... ......
分布式 指南 Redis

redis实现分布式锁(包含代码以及分析利弊)

redis实现分布式锁(基础版) 使用redis实现分布式锁的方法有多种,基础版本是基于setnx命令,即如果不存在则设置。这个命令可以保证只有一个客户端能够成功设置一个key,从而获得锁。设置key的时候需要设置一个过期时间,以防止死锁。释放锁的时候需要删除key,或者使用lua脚本来保证原子性。 ......
利弊 分布式 代码 redis

用Java写一个分布式缓存——RESP服务端

本篇我们将完成一个RESP的socket的服务端,初步完成一个单机版缓存。 另外我们还需要完成命令的动态路由。 源码:https://github.com/weloe/Java-Distributed-Cache ......
分布式 缓存 Java RESP

分布式配置nacos搭建踩坑指南(下)

上一篇介绍了在配置nacos中的碰到的坑,这一篇介绍一下如何正确进行nacos的环境搭建和配置,所以本文分为两部分,第一部分为环境搭建,介绍如何安装和运行。第二部分为alibaba Sprint Boot配置,介绍如何正确配置。 注意:本文基于nacos 2.2.0,alibaba Spring B ......
分布式 指南 nacos