故障

【故障公告】数据库服务器今年第六次 CPU 100% 故障

自9月第五次数据库服务器 CPU 100% 故障之后,今天下午又出现数据库服务器 CPU 100% 故障,是今年的第六次。自从园子2013年搬上阿里云,几乎每年都会遇到数据库服务器 CPU 100% 问题,但今年创造了新记录,一年还未结束,却已遭遇六次,最困难的一年,连故障也过来凑热闹。今天的故障发... ......
故障 年第 数据库 服务器 公告

聊一聊 tcp/ip 在.NET故障分析的重要性

一:背景 1. 讲故事 这段时间分析了几个和网络故障有关的.NET程序之后,真的越来越体会到计算机基础课的重要,比如 计算机网络 课,如果没有对 tcpip协议 的深刻理解,解决这些问题真的很难,因为你只能在高层做黑盒测试,你无法看到 tcp 层面的握手和psh通讯。 这篇我们通过两个小例子来理解一 ......
重要性 故障 tcp NET ip

SecureRandom随机数引起的故障

故障现象: 接口大面积超时(数十秒到十多分钟不等)、接口大面积报错(比如连接池报错); 常见监控如 JVM、数据库连接、SQL 查询、网络、请求量都没有异常。 问题分析: 问题开始于修复 Sonar 问题 public class MathUtils { /** * 根据长度,生成指定位数的随机数 ......
随机数 SecureRandom 故障

更换出现故障的 vSAN 缓存驱动器

摘自国外的一个更换SSD缓存层硬盘的实例 我的家庭实验室一直使用通过 VMware vSAN 全闪存实施提供的主存储运行近 4 年。 底层驱动器是消费级三星 850 EVO 120GB(缓存)和 500GB(容量)SSD 驱动器。六个月前,vSAN 开始显示其中一台 ESXi 主机上的缓存驱动器的运 ......
驱动器 缓存 故障 vSAN

kafka了解多少,遇到哪些故障,怎么解决的?

作为一种分布式消息队列,Kafka 在实际应用中也可能遇到各种故障,下面列举几种常见的情况和解决方案: 1. 节点宕机 当 Kafka 集群中的某个节点宕机时,可能导致数据不一致、数据丢失等问题。解决方案建议使用多副本机制,即在各个节点之间进行数据的同步和复制,保证集群中的节点宕机时,数据不会丢失。 ......
故障 kafka

MySQL系列:binlog日志详解(参数、操作、GTID、优化、故障演练)

目录简介作用系统参数--log_bin--server_id--binlog_format--sync-binlog(双一标准)--gtid-mode(gtid)--enforce-gtid-consistency(gtid)--expire-logs-day(优化参数)--binlog_cache ......
故障 参数 binlog MySQL 日志

100 个常用 Kubernetes 诊断命令,助你轻松搞定各种 Kubernetes 集群故障

100 个常用 Kubernetes 诊断命令,助你轻松搞定各种 Kubernetes 集群故障 云原生百宝箱 奇妙的Linux世界 2023-10-30 08:13 发表于重庆 收录于合集 #Kubernetes285个 #云计算106个 #Docker208个 #开源474个 公众号关注 「奇妙 ......
Kubernetes 集群 故障 命令 常用

K8S(KubeSphere)边做边学(一)——基础故障排查

公司系统近1年开始转变为基于微服务的k8s部署结构,使用的是kubesphere。 由于公司系统迭代更新频率较高,且不时有新的私有化客户部署搭建,更新和部署过程中经常会遇到各类问题。对于研发出生,非运维专业又是半路出家学习了解K8S的我来说,一路磕磕碰碰,边学习边积攒经验,并对期间的操作处理做个总结 ......
KubeSphere 故障 基础 K8S K8

win11 打印机故障 0x000000709

0x000000709 无需删除任何更新,新建打印机凭证即可; 无需重启电脑,再次连接打印机 ......

关于“语雀故障公告”的学习与思考:可监控!可灰度!可回滚!

你好呀,我是歪歪。 昨天晚上语雀发布了关于 10 月 23 日的故障公告,公告中关于故障的时间点梳理如下: 这是公告链接:https://mp.weixin.qq.com/s/WFLLU8R4bmiqv6OGa-QMcw 14:07 数据存储运维团队收到监控系统报警,定位到原因是存储在升级中因新的运 ......
灰度 故障 公告

故障解析丨Clone节点导致主从故障

1.背景概述 在一次主从复制架构中,由于主节点binlog损坏,导致从节点无法正常同步数据,只能重做从节点;因此使用MySQL 8.0.17开始提供的clone技术进行恢复,恢复后的2天都发生了主从报错数据冲突。 通过解析binlog发现,同一时刻主从节点都在执行同一条语句,因此询问业务是否在主从节 ......
故障 主从 节点 Clone

语雀故障与反思,顺便再领半年会员!

23 日语雀的故障相信大部分人都已经知道了,官方发布的公告是这样的: 10 月 23 日语雀出现重大服务故障,且持续 7 个多小时才完全恢复,给用户使用造成极大不便,对此我们深感抱歉。经过复盘,我们在这里向大家进一步说明故障原因、修复过程和改进措施。 故障原因及处理过程: 10 月 23 日下午,服 ......
故障 半年 会员

对kubeadm进行故障排查

前言 k8s集群在安装过程中会遇到各种问题,很难有一个非常全的QA能将所有问题都囊括进来,K8S集群的部署问题,很多都出现在网络插件相关,因为k8s.io网站镜像需要使用国内源下载,另外网络插件也比较难理解。这里列举几个问题。 Node节点主机名保证唯一性 Node节点之间要保证主机名的唯一性,同时 ......
故障 kubeadm

掌握 Kubernetes 故障排除:有效维护集群的最佳实践和工具

Kubernetes 是一款管理容器化应用程序的强大工具。然而,与任何复杂的系统一样,使用它时也可能出错。当问题出现时, 掌握有效的故障排除技术和工具非常重要。 本文将介绍以下步骤,助您了解事件收集的入门知识: 检索最新事件 使用 Pod 模拟问题 在位于 PV 的 Pod 中存储事件 检索最新事件 ......
集群 Kubernetes 故障 工具

linux网络故障排查

在日常使用中,经常会出现无法连通的情况,这个时候我们就需要找到问题出在哪里,这里面给各位提供一个生产环境排查网络故障的大体思路,一般情况下如果遇到网络故障,都是通过筛选的方式一点一点的确定问题所在,首先判断是本机的问题还是网络上其它设备的问题,如果同一网络环境中的其它主机正常的,要去其它网络设备(路 ......
故障 linux 网络

html+css3+anime.js实现文字故障动画

记录一个很酷的动画,效果如图: 是基于html+css3+anime.js实现的,看了眼代码,其实是默认文字的div中定位了几个相同的文字块,利用clip-path这个属性去裁剪展示其中的一部分,用于展示故障的效果,动画则是使用anime.js去循环改变X与Y轴的位置,同时调整绘制的颜色,demo代 ......
故障 文字 动画 anime html

【笔记】问题控制与管理&故障、问题、已知错误、变更请求之间的逻辑关系&问题管理流程

【笔记】问题控制与管理&故障、问题、已知错误、变更请求之间的逻辑关系 问题控制与管理 与故障管理的尽可能快地恢复服多的目标不同,问题管理是要防止再次发生故障 **例如你制作了一个报表,用户填写了问题数据进去,因此报错提示了,让用户换个数据或者和用户说不要这样填写的方法就算是故障管理,问题还存在,只不 ......
问题 amp 逻辑 故障 流程

【笔记】数据库、网络故障与恢复

【笔记】数据库故障与恢复 数据库故障主要分:事务故障、系统故障和介质故障 事务故障 是指事务在运行至正常终点前被终止,此时数据库可能出现不正确的状态。 是由于事务程序内部错误而引起的,有些可以预期,如金额不足等,有些不可以预期,如非法输入、运算溢出等。 类似于手动执行回滚 恢复过程: 1、反向(从后 ......
故障 数据库 笔记 数据 网络

再现ORA-600 4000故障处理---惜分飞

联系:手机/微信(+86 17813235971) QQ(107644445) 标题:再现ORA-600 4000故障处理 作者:惜分飞©版权所有[未经本人同意,不得以任何形式转载,否则有进一步追究法律责任的权利.] 有一个10g的库,由于redo损坏导致无法正常recover成功 正常途径无法op ......
故障 4000 ORA 600

[雷池WAF]长亭雷池WAF配置基于健康监测的负载均衡,实现故障自动切换上游服务器

为了进一步加强我们的内网安全,我们在原有硬WAF的基础上,又在内网使用的社区版的雷池WAF,作为应用上层的软WAF。从而实现多WAF防护的架构。 经过进一步了解,发现雷池WAF的上游转发代理是基于Tengine的,所以我们萌生出了一个想法,就是让雷池既可以具备WAF的功能,又具备负载均衡和故障切换的 ......
雷池 长亭 WAF 故障 服务器

修复grub引导故障

开机启动只能到: 一般此类情况为efi目录下centos或其它系统(redhat,ubuntu)目录下的grub.cfg文件有问题,可以是缺少此文件。 修复处理grub命令行下执行: ls ls (hd0,gpt1)/ #所有显示的分区都看一下,一个是确定各分区里的文件内容,另一个是要找到boot分 ......
故障 grub

Hadoop-Operation category READ is not supported in state standby 故障解决

在查询hdfs时或者执行程序向hdfs写入数据时遇到报错:Operation category READ is not supported in state standby 意思是:该主机状态为待机,不支持操作类别READ. 你会发现最基本的hdfs命令都不能执行,例如:hadoop fs -ls ......

Redis学习--------分片集群、散列插槽、集群伸缩、故障转移

Redis学习 分片集群、散列插槽、集群伸缩、故障转移 https://blog.csdn.net/qq_43719634/article/details/124911627 Redis集群添加新节点(水平扩展)、删除其中一个节点 https://blog.csdn.net/qq_33417321/ ......
集群 故障 Redis

故障排查

参考资料 服务器案例查询助手 > 典型场景案例指导 ......
故障

MHA故障恢复

[root@db04 ~]# cat recovery_mha.sh #!/bin/bash . /etc/init.d/functions slave_ip=("172.16.1.51" "172.16.1.52" "172.16.1.53" "172.16.1.54") for runt in ......
故障 MHA

记一次ORACLE的离奇故障,ORACLE bug导致数据库连接时断时通

故障表现: Windows server平台下 Java应用程序和plsql developer客户端都无法连接数据库 plsql developer 报错 ora-12541 sqlplus报错 ora-12560 用 lsnrctl status 查看监听 则一直显示正在连接... 处理过程: ......
ORACLE 故障 数据库 数据 bug

Kafka的监控和故障恢复

前言 说完Kafka在企业级应用中的使用之后,接下来避免不了的话题就是故障监控和恢复了,今天咱们也来聊聊这个话题 监控Kafka集群 Kafka集群的监控是确保其正常运行和性能优化的关键步骤。下面列出了一些常用的方法和工具来监控Kafka集群: JMX监控: Kafka提供了JMX(Java Man ......
故障 Kafka

实现redis哨兵,模拟master故障场景

1.概述 在哨兵(sentinel)机制中,可以解决redis高可用问题,即当master故障后可以自动将slave提升为master,从而可以保证redis服务的正常使用。 2.哨兵的实现 哨兵的前提是已经实现了一个redis的主从复制的运行环境,从而实现一个一主两从基于哨兵的高可用redis架构 ......
哨兵 故障 场景 master redis

WIN11 安装 SQL Server 2019,SQLSERVER2022, MYSQL 8.0 ,Doker,Mongodb失败故障分析

最近研究数据库性能调优遇到各种数据库各种装不上,不知道熬了多少根软白沙,熬了多少颗张三疯,问了多少AI,查了多少网页,熬了两天,终于搞明白了一件事:那就是WIN11 ON ARM (因为拿的是MAC PRO M2做.NET平台开发安装)SQL SERVER2019,SQL SERVER 2022,M ......
SQLSERVER 故障 Mongodb Server MYSQL

【故障公告】遭遇用心良苦的疯狂攻击:DDoS + CC攻击

2023年10月2日19:32,收到阿里云的通知短信,最近几年几乎每年都会遇到短暂的 DDoS 攻击,为了减少攻击带来的影响,我们部署了好多台负载均衡,本以为和以前一样只是其中1-2台负载均衡受到攻击而被屏蔽。 但接下来接连不断的通知短信把我们惊呆了,我们针对不同线路部署的所有负载均衡全部被攻击,全... ......
故障 公告 DDoS