TCP KEEPALIVE以获得更好的POSTGRESQL体验进程

发布时间 2023-09-01 23:32:40作者: jl1771

如果您听说过 TCP keepalive 但不确定它是什么,请继续阅读。如果您曾经对以下错误消息感到惊讶:

  • server closed the connection unexpectedly
  • SSL SYSCALL error: EOF detected
  • unexpected EOF on client connection
  • could not receive data from client: Connection reset by peer

那么这篇文章适合您。

连接断开的原因

连接断开的可能原因有多种:

数据库服务器崩溃

上面列表中的前两条消息可能是 PostgreSQL 服务器问题造成的。如果服务器由于某种原因崩溃,您将看到类似的消息。要调查服务器是否存在问题,您应该首先查看 PostgreSQL 日志,看看是否可以找到匹配的崩溃报告。

下面我们不会处理这种情况,因为这不是网络问题。

客户端放弃的连接

如果客户端在没有正确关闭数据库连接的情况下退出,服务器在网络套接字上通信时将收到文件结束或错误。通过v14 中引入的新会话统计信息,您可以跟踪 中此类“废弃”数据库连接的数量pg_stat_database.sessions_abandoned

例如,如果应用程序服务器发生故障并重新启动,它通常不会关闭与数据库服务器的连接。这并不令人担忧,当服务器尝试向客户端发送

数据时,数据库服务器会很快检测到它。但如果数据库会话空闲,服务器进程正在等待客户端发送下一条语句(可以看到pg_stat_activity

wait_event)。那么服务器不会立即注意到客户端不再存在!这种挥之不去的后端进程会占用一个进程槽,并可能导致您超出

max_connections

PostgreSQL v14 引入了一个新参数idle_session_timeout,该参数会在一段时间后关闭空闲连接。但这也会终止“健康”的空闲连接,

因此这不是一个很好的解决方案。TCP keepalive 为这个问题提供了更好的解决方案。

网络组件关闭的连接

有时,数据库连接的两端都会遇到相同的问题:每一端都看到另一端“挂断了它们”。在这种情况下,问题出在数据库客户端和服务器之

间。

如果确实存在连接问题,网络连接可能会断开。在软件层面上你无法改变这一点。但很多时候,断开连接是由防火墙或路由器的配置方式

引起的。网络组件可能必须“记住”每个打开连接的状态,而其资源是有限的。因此,“忘记”并删除闲置较长时间的连接似乎是权宜之计。

由于当今的许多 TCP 流量都是通过 HTTP 进行的,并且 HTTP 是无状态的,因此这通常不是问题。如果您的 HTTP 连接断开,您只需为下

一个请求建立一个新连接,这并不是很昂贵。但数据库不同:

  • 建立数据库连接的成本很高
  • 数据库连接不是无状态的;例如,通过关闭连接,您会丢失打开的事务、临时表和准备好的语句
  • 数据库会话空闲较长时间是正常的,例如,如果您正在使用连接池,或者当客户端正在等待长时间运行的分析查询的结果时

这就是TCP持久连接发挥作用的地方,它可以用来保持空闲连接打开。

什么是 TCP keepalive?

Keepalive 是 TCP 协议的一项功能。当您在 TCP 网络套接字上设置该SO_KEEPALIVE选项时,一旦套接字空闲,计时器就会开始运行。当

保活空闲时间到期且套接字上没有进一步活动时,内核将向通信对方发送“保活数据包”。如果对方应答,则认为连接良好,并且计时器再

次开始运行。

如果没有应答,内核在发送另一个持久连接分组之前,会等待持久连接间隔时间。此过程重复进行,直到发送的keepalive报文数量达到

keepalive计数。之后,该连接被视为死亡连接,试图使用该网络套接字将导致错误。

注意,发送keepalive消息的是操作系统内核,而不是应用程序(数据库服务器或客户端)。应用程序不知道这个过程。

TCP keepalive 有两个目的:

  • 防止网络连接处于空闲状态
  • 检测通信的另一端是否离开而没有关闭网络连接

TCP 保活默认设置

keepalive 参数的默认值因操作系统而异。在 Linux 和 Windows 上,默认值为:

  • keepalive 空闲时间:Linux、MacOS 和 Windows 上为 2 小时
  • keepalive 间隔:Linux 和 MacOS 上为 75 秒,Windows 上为 1 秒
  • keepalive 计数:MacOS 上为 8,Linux 上为 9,Windows 上为 10(该值在 Windows 上无法更改)

使用 TCP keepalive 使空闲数据库会话保持活动状态

为了防止防火墙和路由器关闭空闲连接,我们需要为持久连接空闲时间设置一个低得多的值。然后在连接关闭之前发送keepalive报文。

即使数据库客户端和服务器都没有发送任何数据,这也会让出错的网络组件相信连接没有空闲。

对于这种情况,keepalive计数和keepalive间隔是不相关的。我们所需要的就是让第一个keepalive数据包足够早地发送。

使用 TCP keepalive 检测死连接

对于这种情况,减少持久连接空闲时间通常是不够的。如果服务器以75秒的间隔发送9个keepalive报文,则需要超过10分钟才能检测到死

连接。所以我们也会减少keepalive计数,或者keepalive间隔,或者两者都减少——就像在这个例子中一样。

还有一个问题没有解决:即使操作系统检测到网络连接中断,数据库服务器也不会注意到,除非它尝试使用网络套接字。如果它正在等待

客户端的请求,请求会立即执行。但是如果服务器忙于执行一个长时间运行的SQL语句,它不会注意到死亡连接,直到查询完成并尝试将

结果返回给客户端!为了防止这种情况发生,PostgreSQL v14引入了新的参数client_connection_check_interval,该参数目前只在

Linux上支持。设置此参数会导致服务器定期“轮询”套接字,即使它还没有要发送的内容。这样,它可以检测到关闭的连接并中断SQL语句

的执行。

在 PostgreSQL 服务器上设置 TCP keepalive 参数

PostgreSQL 服务器总是设置SO_KEEPALIVETCP 套接字来检测断开的连接,但默认的两小时空闲超时非常长。

您可以设置配置参数tcp_keepalives_idletcp_keepalives_intervaltcp_keepalives_count(Windows 上不支持最后一

项)来更改所有服务器套接字的设置。

这是为所有数据库连接配置TCP keepalive的最方便的方法,而不管使用的客户端是什么。

在PostgreSQL客户端上设置TCP keepalive参数

PostgreSQL 客户端共享库libpq具有连接参数keepalives_idle,keepalives_intervalkeepalives_count(同样,后者在

Windows 上不受支持)来在客户端配置 keepalive。

这些参数可以在PostgreSQL连接字符串中与所有与 libpq链接的客户端接口一起使用,例如Psycopg或PHP。

PostgreSQL JDBC驱动程序不使用libpq,它只有一个连接参数 tcpKeepAlive 来启用TCP keepalive(默认是禁用的),但没有配置

keepalive 空闲时间和其他keepalive设置的参数。

在操作系统上设置TCP keepalive参数

您可以更改操作系统对所有TCP连接的默认值,而不是专门为PostgreSQL连接配置keepalive设置——如果您使用的PostgreSQL客户端应

用程序不允许设置keepalive连接参数,这可能很有用。

在 Linux 上,通过编辑/etc/sysctl.conf文件来完成:

# detect dead connections after 70 seconds
net.ipv4.tcp_keepalive_time = 60
net.ipv4.tcp_keepalive_intvl = 5
net.ipv4.tcp_keepalive_probes = 3

要在不重启计算机的情况下激活设置,请运行

sysctl -p

在旧的MacOS版本上,您也可以编辑/etc/sysctl.conf,但参数不同:

# detect dead connections after 70 seconds
net.inet.tcp.keepidle = 60000
net.inet.tcp.keepintvl = 5000
net.inet.tcp.keepcnt = 3

在较新的 MacOS 版本(在 13 上测试)上,创建文件/Library/LaunchDaemons/sysctl.plist

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE plist PUBLIC "-//Apple//DTD PLIST 1.0//EN" "http://www.apple.com/DTDs/PropertyList-1.0.dtd">
<plist version="1.0">
<dict>
    <key>Label</key>
    <string>sysctl</string>
    <key>Program</key>
    <string>/usr/sbin/sysctl</string>
    <key>ProgramArguments</key>
    <array>
        <string>/usr/sbin/sysctl</string>
        <string>net.inet.tcp.keepidle=60000</string>
        <string>net.inet.tcp.keepintvl=5000</string>
        <string>inet.inet.tcp.keepcnt=3</string>
    </array>
    <key>RunAtLoad</key>
    <true/>
</dict>
</plist>

您必须重新启动才能激活更改。

在 Windows 上,您可以通过添加以下注册表项来更改 TCP keepalive 设置:

HKEY_LOCAL_MACHINE\System\CurrentControlSet\Services\Tcpip\Parameters\KeepAliveTime
HKEY_LOCAL_MACHINE\System\CurrentControlSet\Services\Tcpip\Parameters\KeepAliveInterval

如上所述,没有设置 keepalive 探测的数量,该数量被硬编码为 10。注册表项必须为 DWORD类型,并且值的单位是毫秒而不是秒。

更改这些键后,重新启动 Windows 以激活它们。

结论

配置TCP keepalive连接可以改善PostgreSQL体验,可以保持空闲的数据库连接处于打开状态,也可以及时检测断开的连接。您可以在

PostgreSQL客户端、服务器或操作系统上配置keepalive。

除了配置 keepalive 之外,还可以设置新参数client_connection_check_interval,以便在客户端放弃会话时取消长时间运行的查询。