套路 一条龙 磁盘 故障

磁盘IO故障排查(docker模拟程序)

如何快速排查Linux磁盘IO故障 雷哥 Cloud研习社 2022-08-31 07:31 发表于山东 收录于合集 #云计算179个 #实战经验74个 #linux192个 #计算机168个 #存储系统11个 在我之前的文章中,谈到了“Linux 的磁盘 I/O 性能监测”,让我们今天做一些练习, ......
磁盘 故障 程序 docker

Linux 磁盘空间莫名被吃掉,该怎么查?

在服务器运维过程中,我们时常会遇到这样的情况,收到服务器磁盘空间告警: 登录服务器,通过df -Hl查看 和告警信息一致,接着我们就是要找到导致磁盘空间满的目录或文件。 如何找到占用空间大的目录或文件? 一种比较笨的方法是,在根目录下,通过du -hs命令,列出各目录所占空间大小 之后再用同样的方法 ......
磁盘 Linux 空间

k8s nodeport 端口故障排查记录

有反馈K8S集群nodeport 端口经常不通,不断重试后可能恢复,现场可复现。nginx-ingress 服务也用的是nodeport模式,上机测试,确认问题存在。 故障现象: 1、在集群外telnet ingress 端口,偶然性出现超时。 2、集群ingress pod 不停在重启。(在10. ......
端口 nodeport 故障 k8s k8

【故障公告】攻击式巨量并发请求再次来袭,引发博客站点故障

继周五 18:40-18:55 左右首次来袭,今天 11:10-12:10 左右,来路不明的攻击式巨量并发请求再次袭击园子,而且攻势更猛,单台负载均衡最高 QPS 超过4万。这种前所未遇的超日常百倍的并发请求,博客站点毫无还手之力,所有 pod 全部宕机 ......
故障 巨量 再次 站点 公告

【故障公告】Kubernetes 集群节点宕机造成博客站点故障(被3.5万QPS压垮)

非常抱歉!今天 18:40-18:55 左右 Kubernetes 集群一台高配节点突然宕机,造成博客站点故障,访问时出现 502 Bad Gateway,由此给您带来麻烦,请您谅解。 发现故障并定位问题后,我们增加了新节点服务器并重启宕机节点服务器,之后恢复正常。 19:17 左右又出现故障,疑似 ......
故障 节点 集群 Kubernetes 站点

【故障公告】cc攻击又来了,雪上加霜的三月

非常非常抱歉!今天 21:20-22:10 左右,肆无忌惮的 cc 攻击又来了,蓄意攻击者很厉害,躲过阿里云云盾的黑洞机制,轻松击垮园子的博客站点,又给大家带来了很大的麻烦,请大家谅解!今年3月是园子非常困难的一个月,也是园子努力走出困境的关键一个月,这突如其来的高水平恶意攻击真会雪上加霜,给我们的... ......
雪上加霜 故障 公告

RabbitMQ真实生产故障问题还原与分析

RabbitMQ生产故障问题分析 由某一次真实生产环境rabbitMQ故障引发血案,下面复盘问题发生原因以及问题解决方法。 1、 问题引发 由某个服务BI-collector-xx队列出现阻塞,影响很整个rabbitMQ集群服务不可用,多个应用MQ生产者服务出现假死状态,系统影响面较广,业务影响很大 ......
RabbitMQ 故障 问题

MySQL 中一条 sql 的执行过程

一条 SQL 的执行过程 前言 查询 查询缓存 分析器 优化器 执行器 数据更新 日志模块 redo log (重做日志) binlog (归档日志) undo log (回滚日志) 两阶段提交 为什么需要两阶段提交 逻辑日志和物理日志 参考 一条 SQL 的执行过程 前言 在开始学习 MySQL ......
过程 MySQL sql

vivo 故障定位平台的探索与实践

作者:vivo 互联网服务器团队- Liu Xin、Yu Dan 本文基于故障定位项目的实践,围绕根因定位算法的原理进行展开介绍。鉴于算法有一定的复杂度,本文通过图文的方式进行说明,希望即使是不懂技术的同学也能理解。 一、背景介绍 1.1 程序员的困扰 作为一名IT从业人员,比如开发和运维,多少有过 ......
故障 平台 vivo

【JVM故障问题排查心得】「内存诊断系列」Xmx和Xms的大小是小于Docker容器以及Pod的大小的,为啥还是会出现OOMKilled?

为什么我设置的大小关系没有错,还会OOMKilled? 这种问题常发生在JDK8u131或者JDK9版本之后所出现在容器中运行JVM的问题:在大多数情况下,JVM将一般默认会采用宿主机Node节点的内存为Native VM空间(其中包含了堆空间、直接内存空间以及栈空间),而并非是是容器的空间为标准。 ......
大小 容器 OOMKilled 故障 内存

“喜提”一个P2级故障—CMSGC太频繁,你知道这是什么鬼?

前段时间收到线上一些列告警,内容是CMSGC太频繁。那接下来这篇文章我会告诉你:什么是CMSGC太频繁;整个排查过程与你分享;以及一些规避手段。 ......
故障 这是 CMSGC

【JVM故障问题排查心得】「内存诊断系列」Docker容器经常被kill掉,k8s中该节点的pod也被驱赶,怎么分析?

我有一个在主机中运行的Docker容器(也有在同一主机中运行的其他容器)。该Docker容器中的应用程序将会计算数据和流式处理,这可能会消耗大量内存。 该容器会不时退出。我怀疑这是由于内存不足,但不是很确定。我需要找到根本原因的方法。那么有什么方法可以知道这个集装箱的死亡发生了什么? ......
节点 容器 故障 内存 心得

阿里云香港节点全面故障给我们的启示

2022年12月18日上午,阿里云发布《阿里云香港可用区C某机房设备异常》公告。“阿里云监控发现香港地域某机房设备异常,影响香港地域可用区C的云服务器ECS、云数据库PolarDB等云产品使用,阿里云工程师已在紧急处理中。” 在这个寒冷的冬天,一个炸雷给业界惊起了一个大波浪。很多人不解的是说好的高可 ......
节点 故障

云原生架构(二)环境搭建(Mac上安装Istio---Docker+Kubernetes+Istio一条龙)

系列目录 云原生架构(一)原理概览 云原生架构(二)环境搭建 云原生架构(三)简单样例 云原生架构(四)源码详解 云原生架构(五)总结提高 一、背景 Istio 项目由 Google 和 IBM 的团队与 Lyft 的 Envoy 团队合作启动。它已经完全在 GitHub 上公开开发。目前已经是“S ......
Istio 一条龙 Kubernetes 架构 环境

Karmada跨集群优雅故障迁移特性解析

摘要:在 Karmada 最新版本 v1.3中,跨集群故障迁移特性支持优雅故障迁移,确保迁移过程足够平滑。 本文分享自华为云社区《Karmada跨集群优雅故障迁移特性解析》,作者:Karmada社区。 在多云多集群应用场景中,为了提高业务的高可用性,用户的工作负载可能会被部署在多个集群中。然而当某个 ......
集群 故障 特性 Karmada

【JVM故障问题排查心得】「内存诊断系列」JVM内存与Kubernetes中pod的内存、容器的内存不一致所引发的OOMKilled问题总结(上)

在我们日常的工作当中,通常应用都会采用Kubernetes进行容器化部署,但是总是会出现一些问题,例如,JVM堆小于Docker容器中设置的内存大小和Kubernetes的内存大小,但是还是会被OOMKilled。在此我们介绍一下K8s的OOMKilled的Exit Code编码。 ......
内存 问题 容器 Kubernetes JVM

【JVM故障问题排查心得】「内存诊断系列」JVM内存与Kubernetes中pod的内存、容器的内存不一致所引发的OOMKilled问题总结(下)

之前文章根据《【JVM故障问题排查心得】「内存诊断系列」JVM内存与Kubernetes中pod的内存、容器的内存不一致所引发的OOMKilled问题总结(上)》我们知道了如何进行设置和控制对应的堆内存和容器内存的之间的关系,所以防止JVM的堆内存超过了容器内存,导致容器出现OOMKilled的情况... ......
内存 问题 容器 Kubernetes JVM

.NET性能优化-使用内存+磁盘混合缓存

我们回顾一下上一篇文章中的内容,有一个朋友问我这样一个问题: 我的业务依赖一些数据,因为数据库访问慢,我把它放在Redis里面,不过还是太慢了,有什么其它的方案吗? 其实这个问题比较简单的是吧?Redis其实属于网络存储,我对照下面的这个表格,可以很容易的得出结论,既然网络存储的速度慢,那我们就可以 ......
缓存 磁盘 内存 性能 NET
共1098篇  :37/37页 首页上一页37下一页尾页