故障

《Kubernetes故障篇:calico/node is not ready: BIRD is not ready》

文章目录一、背景信息二、解决方法总结:整理不易,如果对你有帮助,可否点赞关注一下? 一、背景信息k8s集群部署后发现calico的pod未通过健康检查,如下所示: 通过命令kubectl describe pods calico-node-7cnct -n kube-system,查看其中一个pod ......
ready Kubernetes not 故障 calico

【故障公告】数据库服务器 CPU 近 100% 造成全站故障,雪上加霜难上加难的三月

数据库服务器 CPU 近 100% 问题几乎每年都要发生一次,上次发生在去年1月31日,每次都是通过主备切换或者重启实例解决。今年这个问题真会找时间,在园子非常困难的时期,在昨天刚刚因疯狂蜘蛛袭击被整得精疲力尽之后,在星期天早上难得睡个懒觉的时候,在今天早上 8:30 左右来袭。 ......

Oracle 启动后一会儿就挂掉故障处理—ORA-600 17182----惜分飞

联系:手机/微信(+86 17813235971) QQ(107644445) 标题:Oracle 启动后一会儿就挂掉故障处理—ORA-600 17182 作者:惜分飞©版权所有[未经本人同意,不得以任何形式转载,否则有进一步追究法律责任的权利.] 一例正常运行的数据库突然节点不停重启(因为是rac ......
故障 Oracle 17182 ORA 600

【故障公告】它(变异的百度蜘蛛)又来了,雪上加霜又添恐怖的三月

今天12点左右,它又来了,熟悉的恐怖身影(116开头IP段、山西的某个城市),不是cc攻击,是那只让人敬畏的蜘蛛。2022年4月3日,它的首次来访在园子里掀起狂风暴浪,数据库连接数过万,负载均衡带宽跑满,带宽扩容50%依然跑满,当时我们通过限制同一个IP每天的请求数侥幸躲过。 ......
雪上加霜 变异 蜘蛛 故障 公告

业务系统故障率居高不下:有哪些非常有效的治理大招?

一分钟精华速览 聊稳定性治理的文章很多,但面对系统的“各类疾病”,到底该从哪里着手才能立竿见影,怎么才能“药到病除”?相信在看这个问题时,大家会抱着“能不能学两招回去用”的心态阅读。 「TakinTalks论道系列」第3期,我们采访了4位资深从业人员,分别从CTO、稳定性负责人、SRE架构师、研发工 ......
故障率 故障 业务 系统

客服系统对接公众号解决“该公众号提供的服务出现故障,请稍后再试”的操作步骤

有段时间没去测试公众号的自动回复功能,今天一测,报错: “该公众号提供的服务出现故障,请稍后再试” 我记得之前并没有出现过这个错误,就去排查程序问题。 公众号出现该错误的原因是: 1、直接回复success(推荐方式) 2、直接回复空串(指字节长度为0的空字符串,而不是XML结构体中content字 ......
公众 稍后 故障 步骤 系统

m基于时空特性的WSN网络节点故障诊断matlab仿真

1.算法描述 无线传感网络节点由传感器模块、处理器模块、通信模块、存储模块和电源模块构成,处理器模块是节点的核心单元。 ①传感器模块:负责整个监测区域内信息的采集和数据转换。 ②通信模块:负责与其他传感器节点进行无线通信,交换控制消息和收发采集的数据。 ③电源模块:为传感器节点提供运行所需能量,通常 ......
节点 故障 特性 时空 matlab

磁盘IO故障排查(docker模拟程序)

如何快速排查Linux磁盘IO故障 雷哥 Cloud研习社 2022-08-31 07:31 发表于山东 收录于合集 #云计算179个 #实战经验74个 #linux192个 #计算机168个 #存储系统11个 在我之前的文章中,谈到了“Linux 的磁盘 I/O 性能监测”,让我们今天做一些练习, ......
磁盘 故障 程序 docker

k8s nodeport 端口故障排查记录

有反馈K8S集群nodeport 端口经常不通,不断重试后可能恢复,现场可复现。nginx-ingress 服务也用的是nodeport模式,上机测试,确认问题存在。 故障现象: 1、在集群外telnet ingress 端口,偶然性出现超时。 2、集群ingress pod 不停在重启。(在10. ......
端口 nodeport 故障 k8s k8

【故障公告】攻击式巨量并发请求再次来袭,引发博客站点故障

继周五 18:40-18:55 左右首次来袭,今天 11:10-12:10 左右,来路不明的攻击式巨量并发请求再次袭击园子,而且攻势更猛,单台负载均衡最高 QPS 超过4万。这种前所未遇的超日常百倍的并发请求,博客站点毫无还手之力,所有 pod 全部宕机 ......
故障 巨量 再次 站点 公告

【故障公告】Kubernetes 集群节点宕机造成博客站点故障(被3.5万QPS压垮)

非常抱歉!今天 18:40-18:55 左右 Kubernetes 集群一台高配节点突然宕机,造成博客站点故障,访问时出现 502 Bad Gateway,由此给您带来麻烦,请您谅解。 发现故障并定位问题后,我们增加了新节点服务器并重启宕机节点服务器,之后恢复正常。 19:17 左右又出现故障,疑似 ......
故障 节点 集群 Kubernetes 站点

【故障公告】cc攻击又来了,雪上加霜的三月

非常非常抱歉!今天 21:20-22:10 左右,肆无忌惮的 cc 攻击又来了,蓄意攻击者很厉害,躲过阿里云云盾的黑洞机制,轻松击垮园子的博客站点,又给大家带来了很大的麻烦,请大家谅解!今年3月是园子非常困难的一个月,也是园子努力走出困境的关键一个月,这突如其来的高水平恶意攻击真会雪上加霜,给我们的... ......
雪上加霜 故障 公告

RabbitMQ真实生产故障问题还原与分析

RabbitMQ生产故障问题分析 由某一次真实生产环境rabbitMQ故障引发血案,下面复盘问题发生原因以及问题解决方法。 1、 问题引发 由某个服务BI-collector-xx队列出现阻塞,影响很整个rabbitMQ集群服务不可用,多个应用MQ生产者服务出现假死状态,系统影响面较广,业务影响很大 ......
RabbitMQ 故障 问题

vivo 故障定位平台的探索与实践

作者:vivo 互联网服务器团队- Liu Xin、Yu Dan 本文基于故障定位项目的实践,围绕根因定位算法的原理进行展开介绍。鉴于算法有一定的复杂度,本文通过图文的方式进行说明,希望即使是不懂技术的同学也能理解。 一、背景介绍 1.1 程序员的困扰 作为一名IT从业人员,比如开发和运维,多少有过 ......
故障 平台 vivo

【JVM故障问题排查心得】「内存诊断系列」Xmx和Xms的大小是小于Docker容器以及Pod的大小的,为啥还是会出现OOMKilled?

为什么我设置的大小关系没有错,还会OOMKilled? 这种问题常发生在JDK8u131或者JDK9版本之后所出现在容器中运行JVM的问题:在大多数情况下,JVM将一般默认会采用宿主机Node节点的内存为Native VM空间(其中包含了堆空间、直接内存空间以及栈空间),而并非是是容器的空间为标准。 ......
大小 容器 OOMKilled 故障 内存

“喜提”一个P2级故障—CMSGC太频繁,你知道这是什么鬼?

前段时间收到线上一些列告警,内容是CMSGC太频繁。那接下来这篇文章我会告诉你:什么是CMSGC太频繁;整个排查过程与你分享;以及一些规避手段。 ......
故障 这是 CMSGC

【JVM故障问题排查心得】「内存诊断系列」Docker容器经常被kill掉,k8s中该节点的pod也被驱赶,怎么分析?

我有一个在主机中运行的Docker容器(也有在同一主机中运行的其他容器)。该Docker容器中的应用程序将会计算数据和流式处理,这可能会消耗大量内存。 该容器会不时退出。我怀疑这是由于内存不足,但不是很确定。我需要找到根本原因的方法。那么有什么方法可以知道这个集装箱的死亡发生了什么? ......
节点 容器 故障 内存 心得

阿里云香港节点全面故障给我们的启示

2022年12月18日上午,阿里云发布《阿里云香港可用区C某机房设备异常》公告。“阿里云监控发现香港地域某机房设备异常,影响香港地域可用区C的云服务器ECS、云数据库PolarDB等云产品使用,阿里云工程师已在紧急处理中。” 在这个寒冷的冬天,一个炸雷给业界惊起了一个大波浪。很多人不解的是说好的高可 ......
节点 故障

Karmada跨集群优雅故障迁移特性解析

摘要:在 Karmada 最新版本 v1.3中,跨集群故障迁移特性支持优雅故障迁移,确保迁移过程足够平滑。 本文分享自华为云社区《Karmada跨集群优雅故障迁移特性解析》,作者:Karmada社区。 在多云多集群应用场景中,为了提高业务的高可用性,用户的工作负载可能会被部署在多个集群中。然而当某个 ......
集群 故障 特性 Karmada

【JVM故障问题排查心得】「内存诊断系列」JVM内存与Kubernetes中pod的内存、容器的内存不一致所引发的OOMKilled问题总结(上)

在我们日常的工作当中,通常应用都会采用Kubernetes进行容器化部署,但是总是会出现一些问题,例如,JVM堆小于Docker容器中设置的内存大小和Kubernetes的内存大小,但是还是会被OOMKilled。在此我们介绍一下K8s的OOMKilled的Exit Code编码。 ......
内存 问题 容器 Kubernetes JVM

【JVM故障问题排查心得】「内存诊断系列」JVM内存与Kubernetes中pod的内存、容器的内存不一致所引发的OOMKilled问题总结(下)

之前文章根据《【JVM故障问题排查心得】「内存诊断系列」JVM内存与Kubernetes中pod的内存、容器的内存不一致所引发的OOMKilled问题总结(上)》我们知道了如何进行设置和控制对应的堆内存和容器内存的之间的关系,所以防止JVM的堆内存超过了容器内存,导致容器出现OOMKilled的情况... ......
内存 问题 容器 Kubernetes JVM
共321篇  :11/11页 首页上一页11下一页尾页