故障patch 2662 ora

k8s nodeport 端口故障排查记录

有反馈K8S集群nodeport 端口经常不通,不断重试后可能恢复,现场可复现。nginx-ingress 服务也用的是nodeport模式,上机测试,确认问题存在。 故障现象: 1、在集群外telnet ingress 端口,偶然性出现超时。 2、集群ingress pod 不停在重启。(在10. ......
端口 nodeport 故障 k8s k8

【故障公告】攻击式巨量并发请求再次来袭,引发博客站点故障

继周五 18:40-18:55 左右首次来袭,今天 11:10-12:10 左右,来路不明的攻击式巨量并发请求再次袭击园子,而且攻势更猛,单台负载均衡最高 QPS 超过4万。这种前所未遇的超日常百倍的并发请求,博客站点毫无还手之力,所有 pod 全部宕机 ......
故障 巨量 再次 站点 公告

【故障公告】Kubernetes 集群节点宕机造成博客站点故障(被3.5万QPS压垮)

非常抱歉!今天 18:40-18:55 左右 Kubernetes 集群一台高配节点突然宕机,造成博客站点故障,访问时出现 502 Bad Gateway,由此给您带来麻烦,请您谅解。 发现故障并定位问题后,我们增加了新节点服务器并重启宕机节点服务器,之后恢复正常。 19:17 左右又出现故障,疑似 ......
故障 节点 集群 Kubernetes 站点

【故障公告】cc攻击又来了,雪上加霜的三月

非常非常抱歉!今天 21:20-22:10 左右,肆无忌惮的 cc 攻击又来了,蓄意攻击者很厉害,躲过阿里云云盾的黑洞机制,轻松击垮园子的博客站点,又给大家带来了很大的麻烦,请大家谅解!今年3月是园子非常困难的一个月,也是园子努力走出困境的关键一个月,这突如其来的高水平恶意攻击真会雪上加霜,给我们的... ......
雪上加霜 故障 公告

RabbitMQ真实生产故障问题还原与分析

RabbitMQ生产故障问题分析 由某一次真实生产环境rabbitMQ故障引发血案,下面复盘问题发生原因以及问题解决方法。 1、 问题引发 由某个服务BI-collector-xx队列出现阻塞,影响很整个rabbitMQ集群服务不可用,多个应用MQ生产者服务出现假死状态,系统影响面较广,业务影响很大 ......
RabbitMQ 故障 问题

构建api gateway之 如何给openresty打patch

如何给openresty打patch 由于很多功能实现的限制,我们不得不修改openresty,但我们又不一定能持续维护一个 openresty 分支,所有有了patch 这一操作。 patch是怎么补“漏洞”的? patch 中文含义为补丁,给大家的感觉就像在原来的基础上修复漏洞,就像小时候旧衣服 ......
openresty gateway patch api

vivo 故障定位平台的探索与实践

作者:vivo 互联网服务器团队- Liu Xin、Yu Dan 本文基于故障定位项目的实践,围绕根因定位算法的原理进行展开介绍。鉴于算法有一定的复杂度,本文通过图文的方式进行说明,希望即使是不懂技术的同学也能理解。 一、背景介绍 1.1 程序员的困扰 作为一名IT从业人员,比如开发和运维,多少有过 ......
故障 平台 vivo

低版本客户端连接高版本数据库报错ORA-28040、ORA-01017

测试环境: 客户端:Oracle 11.2.0.1 服务端:Oracle 19.16 测试过程: 1.低版本客户端连接高版本数据库报错ORA-28040 2.低版本客户端连接高版本数据库报错ORA-01017 3.总结经验 1.低版本客户端连接高版本数据库报错ORA-28040 使用oracle 1 ......
版本 ORA 客户端 客户 数据库

【JVM故障问题排查心得】「内存诊断系列」Xmx和Xms的大小是小于Docker容器以及Pod的大小的,为啥还是会出现OOMKilled?

为什么我设置的大小关系没有错,还会OOMKilled? 这种问题常发生在JDK8u131或者JDK9版本之后所出现在容器中运行JVM的问题:在大多数情况下,JVM将一般默认会采用宿主机Node节点的内存为Native VM空间(其中包含了堆空间、直接内存空间以及栈空间),而并非是是容器的空间为标准。 ......
大小 容器 OOMKilled 故障 内存

“喜提”一个P2级故障—CMSGC太频繁,你知道这是什么鬼?

前段时间收到线上一些列告警,内容是CMSGC太频繁。那接下来这篇文章我会告诉你:什么是CMSGC太频繁;整个排查过程与你分享;以及一些规避手段。 ......
故障 这是 CMSGC

【JVM故障问题排查心得】「内存诊断系列」Docker容器经常被kill掉,k8s中该节点的pod也被驱赶,怎么分析?

我有一个在主机中运行的Docker容器(也有在同一主机中运行的其他容器)。该Docker容器中的应用程序将会计算数据和流式处理,这可能会消耗大量内存。 该容器会不时退出。我怀疑这是由于内存不足,但不是很确定。我需要找到根本原因的方法。那么有什么方法可以知道这个集装箱的死亡发生了什么? ......
节点 容器 故障 内存 心得

阿里云香港节点全面故障给我们的启示

2022年12月18日上午,阿里云发布《阿里云香港可用区C某机房设备异常》公告。“阿里云监控发现香港地域某机房设备异常,影响香港地域可用区C的云服务器ECS、云数据库PolarDB等云产品使用,阿里云工程师已在紧急处理中。” 在这个寒冷的冬天,一个炸雷给业界惊起了一个大波浪。很多人不解的是说好的高可 ......
节点 故障

Karmada跨集群优雅故障迁移特性解析

摘要:在 Karmada 最新版本 v1.3中,跨集群故障迁移特性支持优雅故障迁移,确保迁移过程足够平滑。 本文分享自华为云社区《Karmada跨集群优雅故障迁移特性解析》,作者:Karmada社区。 在多云多集群应用场景中,为了提高业务的高可用性,用户的工作负载可能会被部署在多个集群中。然而当某个 ......
集群 故障 特性 Karmada

【JVM故障问题排查心得】「内存诊断系列」JVM内存与Kubernetes中pod的内存、容器的内存不一致所引发的OOMKilled问题总结(上)

在我们日常的工作当中,通常应用都会采用Kubernetes进行容器化部署,但是总是会出现一些问题,例如,JVM堆小于Docker容器中设置的内存大小和Kubernetes的内存大小,但是还是会被OOMKilled。在此我们介绍一下K8s的OOMKilled的Exit Code编码。 ......
内存 问题 容器 Kubernetes JVM

【JVM故障问题排查心得】「内存诊断系列」JVM内存与Kubernetes中pod的内存、容器的内存不一致所引发的OOMKilled问题总结(下)

之前文章根据《【JVM故障问题排查心得】「内存诊断系列」JVM内存与Kubernetes中pod的内存、容器的内存不一致所引发的OOMKilled问题总结(上)》我们知道了如何进行设置和控制对应的堆内存和容器内存的之间的关系,所以防止JVM的堆内存超过了容器内存,导致容器出现OOMKilled的情况... ......
内存 问题 容器 Kubernetes JVM
共525篇  :18/18页 首页上一页18下一页尾页