故障kubeadm

Red Hat Ceph Storage 故障排除指南

Red Hat Ceph Storage 5 故障排除指南 - red_hat_ceph_storage-5-troubleshooting_guide-zh-cn.pdf https://access.redhat.com/documentation/zh-cn/red_hat_ceph_stor ......
故障 Storage 指南 Ceph Red

国内 yum源安装 kubelet 和 kubeadm

1.设置国内阿里源 cat <<EOF > /etc/yum.repos.d/kubernetes.repo [kubernetes] name=Kubernetes baseurl=https://mirrors.aliyun.com/kubernetes/yum/repos/kubernetes ......
kubelet kubeadm yum

技术实践|高斯集群服务器双缺省网关故障

​ 导语:当前国产化数据库使用范围越来越广泛,在GaussDB数据库的使用过程中难免会遇到一些问题,有的问题是由于在安装过程中没有注意细节而产生的,多数隐患问题都是在特定场景下才会暴露出来,且暴露的时间未知,这就给数据库的运维工作带来极大的挑战。 本文就是基于一次数据库安装过程中出现的故障而形成的, ......
网关 集群 故障 服务器 技术

TiDB binlog故障处理之drainer周期性罢工

背景 前段时间用户反馈某生产环境 TiDB 集群 drainer 频繁发生故障,要么服务崩溃无法启动,要么数据跑着跑着就丢失了,很是折磨人。该集群跑的是离线分析业务,数据量20T ,v4版本,有多个 drainer 往下游同步数据,目标端包括kafka、file、tidb多种形态。 两天前刚恢复过一 ......
周期性 周期 故障 drainer binlog

阿里云11月12日官方故障报告来了

影响范围 1. OSS、OTS、SLS、MNS 等产品的部分服务受到影响,大部分产品如 ECS、RDS、网络等运行不受影响。 ......
故障 报告 官方

2023年11月12日阿里云产品全面故障的思考

2023年11月12日,阿里云产品因为某些故障,全线都受到影响。是的,双十一的第二天,我的购物车还没清空,阿里云就不让我买了。云产品全面故障,影响之大一个大铁锅都装不下。之所以阿里云故障受到大家这么关注,一方面是阿里云投入多年技术领先,国内 IaaS 领导者,另外一方面是阿里云用户量大影响也大。 通 ......
故障 产品 2023

使用 kubeadm 进行证书管理

检查证书是否过期 kubeadm certs check-expiration [check-expiration] Reading configuration from the cluster... [check-expiration] FYI: You can look at this conf ......
证书 kubeadm

阿里云严重故障,钉钉、淘宝、闲鱼、阿里云盘都崩了,阿里系史诗级故障!!

大家好,我是栈长。 昨天 17 点多,栈长兴致来了,忙里偷闲正在看了一把 LOL S13 淘汰赛,没想到比赛还没看完朋友圈就已经炸锅了: 朋友圈有人开玩笑说,阿里 35 岁的人是不是都被优化了?还是双 11 后都松懈了?这大周末的还让加班?让不让人省心点。。 这我看完也有点懵 B ,大家还记得上次的 ......
故障 史诗

【故障公告】阿里云OSS故障造成图片无法上传

今天 17:44~19:00 期间,我们使用的阿里云对象存储 OSS 出现突发故障,造成图片无法上传,由此给您麻烦麻烦,请您谅解。 故障期间对应的错误日志: The OSS Access Key Id you provided does not exist in our records. 正当我们准 ......
故障 公告 图片 OSS

kubeadm 参数说明

kubeadm 使用帮助 kubeadm -h ┌──────────────────────────────────────────────────────────┐ │ KUBEADM │ │ Easily bootstrap a secure Kubernetes cluster │ │ │ ......
参数 kubeadm

kubeadm部署的k8s证书过期问题 k8s问题排查:the existing bootstrap client certificate in /etc/kubernetes/kubelet.conf is expired

解决问题: 估计跟移动有关,下面那个没解决问题,是因为在原有文件的基础上修改的吧?而这里直接是移走,重新生成了新的。不太清楚是不是这个原因。 $ cd /etc/kubernetes/pki/ $ mv {apiserver.crt,apiserver-etcd-client.key,apiserv ......
问题 certificate kubernetes k8s bootstrap

Archi - 运维 - 一个经过10个服务的 API 请求,出现了随机无法访问的故障,如何解决

问题描述 一个 API 请求,出现了随机无法访问的故障,而这个 API 可能会经过 5-10 个服务,怎么快速定位是哪一个服务出现问题? 解决方案 对于每一个请求,都会分配一个唯一的请求编号(requestId),在经过每一个服务的时候,都带上这个请求编号,每个服务都把这个请求的输入和输出记录下来, ......
故障 Archi API

【故障公告】数据库服务器今年第六次 CPU 100% 故障

自9月第五次数据库服务器 CPU 100% 故障之后,今天下午又出现数据库服务器 CPU 100% 故障,是今年的第六次。自从园子2013年搬上阿里云,几乎每年都会遇到数据库服务器 CPU 100% 问题,但今年创造了新记录,一年还未结束,却已遭遇六次,最困难的一年,连故障也过来凑热闹。今天的故障发... ......
故障 年第 数据库 服务器 公告

聊一聊 tcp/ip 在.NET故障分析的重要性

一:背景 1. 讲故事 这段时间分析了几个和网络故障有关的.NET程序之后,真的越来越体会到计算机基础课的重要,比如 计算机网络 课,如果没有对 tcpip协议 的深刻理解,解决这些问题真的很难,因为你只能在高层做黑盒测试,你无法看到 tcp 层面的握手和psh通讯。 这篇我们通过两个小例子来理解一 ......
重要性 故障 tcp NET ip

SecureRandom随机数引起的故障

故障现象: 接口大面积超时(数十秒到十多分钟不等)、接口大面积报错(比如连接池报错); 常见监控如 JVM、数据库连接、SQL 查询、网络、请求量都没有异常。 问题分析: 问题开始于修复 Sonar 问题 public class MathUtils { /** * 根据长度,生成指定位数的随机数 ......
随机数 SecureRandom 故障

更换出现故障的 vSAN 缓存驱动器

摘自国外的一个更换SSD缓存层硬盘的实例 我的家庭实验室一直使用通过 VMware vSAN 全闪存实施提供的主存储运行近 4 年。 底层驱动器是消费级三星 850 EVO 120GB(缓存)和 500GB(容量)SSD 驱动器。六个月前,vSAN 开始显示其中一台 ESXi 主机上的缓存驱动器的运 ......
驱动器 缓存 故障 vSAN

kafka了解多少,遇到哪些故障,怎么解决的?

作为一种分布式消息队列,Kafka 在实际应用中也可能遇到各种故障,下面列举几种常见的情况和解决方案: 1. 节点宕机 当 Kafka 集群中的某个节点宕机时,可能导致数据不一致、数据丢失等问题。解决方案建议使用多副本机制,即在各个节点之间进行数据的同步和复制,保证集群中的节点宕机时,数据不会丢失。 ......
故障 kafka

MySQL系列:binlog日志详解(参数、操作、GTID、优化、故障演练)

目录简介作用系统参数--log_bin--server_id--binlog_format--sync-binlog(双一标准)--gtid-mode(gtid)--enforce-gtid-consistency(gtid)--expire-logs-day(优化参数)--binlog_cache ......
故障 参数 binlog MySQL 日志

100 个常用 Kubernetes 诊断命令,助你轻松搞定各种 Kubernetes 集群故障

100 个常用 Kubernetes 诊断命令,助你轻松搞定各种 Kubernetes 集群故障 云原生百宝箱 奇妙的Linux世界 2023-10-30 08:13 发表于重庆 收录于合集 #Kubernetes285个 #云计算106个 #Docker208个 #开源474个 公众号关注 「奇妙 ......
Kubernetes 集群 故障 命令 常用

K8S(KubeSphere)边做边学(一)——基础故障排查

公司系统近1年开始转变为基于微服务的k8s部署结构,使用的是kubesphere。 由于公司系统迭代更新频率较高,且不时有新的私有化客户部署搭建,更新和部署过程中经常会遇到各类问题。对于研发出生,非运维专业又是半路出家学习了解K8S的我来说,一路磕磕碰碰,边学习边积攒经验,并对期间的操作处理做个总结 ......
KubeSphere 故障 基础 K8S K8

win11 打印机故障 0x000000709

0x000000709 无需删除任何更新,新建打印机凭证即可; 无需重启电脑,再次连接打印机 ......

kubernetes+docker+kubeadm快速安装

1.Kubernetes 1.27 发布 2023年 4 月13 日,Kubernetes 1.27 正式发布,这是 2023 年的第一个版本。这个版本包括 60 项增强功能。其中 18 项增强功能进入 Alpha、29 项进入 Beta,还有 13 项升级为 Stable 稳定版。 2.环境准备 ......
kubernetes kubeadm docker

关于“语雀故障公告”的学习与思考:可监控!可灰度!可回滚!

你好呀,我是歪歪。 昨天晚上语雀发布了关于 10 月 23 日的故障公告,公告中关于故障的时间点梳理如下: 这是公告链接:https://mp.weixin.qq.com/s/WFLLU8R4bmiqv6OGa-QMcw 14:07 数据存储运维团队收到监控系统报警,定位到原因是存储在升级中因新的运 ......
灰度 故障 公告

故障解析丨Clone节点导致主从故障

1.背景概述 在一次主从复制架构中,由于主节点binlog损坏,导致从节点无法正常同步数据,只能重做从节点;因此使用MySQL 8.0.17开始提供的clone技术进行恢复,恢复后的2天都发生了主从报错数据冲突。 通过解析binlog发现,同一时刻主从节点都在执行同一条语句,因此询问业务是否在主从节 ......
故障 主从 节点 Clone

语雀故障与反思,顺便再领半年会员!

23 日语雀的故障相信大部分人都已经知道了,官方发布的公告是这样的: 10 月 23 日语雀出现重大服务故障,且持续 7 个多小时才完全恢复,给用户使用造成极大不便,对此我们深感抱歉。经过复盘,我们在这里向大家进一步说明故障原因、修复过程和改进措施。 故障原因及处理过程: 10 月 23 日下午,服 ......
故障 半年 会员

k8s 扩容指定版本机器 kubeadm

一、新增机器 二、同步/etc/hosts文件 三、关闭新机器防火墙 systemctl stop firewalld systemctl disable firewalld 四、新机器增加repo文件 cat kubernetes.repo [kubernetes] name=Kubernetes ......
机器 kubeadm 版本 k8s k8

对kubeadm进行故障排查

前言 k8s集群在安装过程中会遇到各种问题,很难有一个非常全的QA能将所有问题都囊括进来,K8S集群的部署问题,很多都出现在网络插件相关,因为k8s.io网站镜像需要使用国内源下载,另外网络插件也比较难理解。这里列举几个问题。 Node节点主机名保证唯一性 Node节点之间要保证主机名的唯一性,同时 ......
故障 kubeadm

安装kubeadm

前言 kubeadm是一个官方主推的k8s集群管理工具,其将部署、升级、配置等繁杂工作进行了标准化、流程化,大大降低了k8s的难度。 安装kubeadm前的准备工作 安装kubeadm不难,在CentOS7上使用阿里云开源镜像站的kubernetes仓库就能实现yum安装kebeadm。难是难在安装 ......
kubeadm

利用kubeadm创建高可用集群

前言 本页的高可用是控制平面组件的高可用部署,同时还分为2种情况:堆叠etcd和外部etcd。使用kubeadm部署多master节点很方便,大体是3个步骤:使用init参数初始化好第一个master节点,然后其余的master节点使用join命令加入到master集群中,形成一个高可用的maste ......
集群 kubeadm

使用kubeadm创建集群

前言 k8s集群在Node节点数量少的情况下,逐台去维护是可行的,但是如果Node节点数量多的情况下,再去想着我大不了一台一台来维护可能就不现实了。而且k8s的每个版本都差不多只有14个月的支持时间。可能还没稳定下来,一个新的版本已经更新了。这样一来版本升级的工作就变的会比较多一些。为了能够保证k8 ......
集群 kubeadm