Nginx惊群现象的两种解决办法

发布时间 2023-09-25 15:37:48作者: 付同學

惊群现象:
惊群现象是指由多个worker进程监听同一个Socket事件时,当事件发生时,相关的所有进程被惊醒,但最终只能有一个进程对该事件进行处理,其他进程会重新休眠,从而导致系统资源的浪费和系统性能的下降。惊群包含accept惊群和epoll惊群。

惊群的本质:睡眠和唤醒问题,属于典型的观察者模式,进程通过等待事件,挂载关注的对象的等待队列上,但对象有资源时就唤醒等待队列上的进程,至于是否产生惊群关键在于wake_up_common 是否无差别地唤醒等待队列上的进程


Epoll惊群的处理:


(1)Accpet_mutex
通过开启accept_mutex锁,每个Worker进程都会去抢自旋锁,只有抢到自旋锁的才能将Socket加入到Epoll中,Accept新的请求,然后释放锁

(2)EPOLLEXCLUSIVE
linux4.5以后内核版本中,增加了EPOLLEXCLUSIVE,该选项可以通过EPOLL_CTL_ADD对要监控的fd添加EPOLLEXCLUSIVE标记,这样fd的epoll entry就带上了EPOLLEXCLUSIVE标记。当有事件到来时,唤醒第一个带有此标记的epoll entry就退出唤醒过程。通过增加这样一个标记,多线程共用同一个epoll的惊群现象得到了解决。

(3)SO_REUSEPORT
SO_REUSEPORT 是惊群最好的解决方法,Nginx 在 1.9.1 中加入了这个选项,每个 worker 进程都有自己的 socket,这些 socket 都 bind 同一个端口。当新请求到来时,内核根据四元组信息进行负载均衡,非常高效


Accpet惊群的处理


当多个进程/线程调用accept监听同一个socket上时,一个新连接的到来就会导致所有阻塞在该socket上的进程/线程都被唤醒,但是最后只有一个进程/线程可以accept成功,其余的又会重新休眠,这样就产生了惊群现象。通过维护一个等待队列(队列的元素为进程),使用WQ_FLAG_EXCLUSIVE标志位(互斥标志位),非exclusive元素会加在等待队列的前面,而exclusive元素会加在等待队列的末尾,当有新连接到来时,会遍历等待队列,并且只唤醒第一个exclusive进程(非互斥的进程由于排在队列前面也会被唤醒)就退出遍历,阻塞在accept上的进程都是互斥的(也就是WQ_FLAG_EXCLUSIVE标志位会被置位),因此现在的linux内核调用accept时,多个进程/线程只有一个会被唤醒并建立新连接