https://www.kernel.org/doc/html/v6.6/staging/static-keys.html#static-keys

静态键

警告

已弃用的API：

直接使用'struct static_key'现在已经被弃用。此外，static_key_{true,false}()也已经被弃用。请勿使用以下内容：
```
struct static_key false = STATIC_KEY_INIT_FALSE;
struct static_key true = STATIC_KEY_INIT_TRUE;
static_key_true()
static_key_false()
```

更新后的API替代方案如下：

DEFINE_STATIC_KEY_TRUE(key);
DEFINE_STATIC_KEY_FALSE(key);
DEFINE_STATIC_KEY_ARRAY_TRUE(keys, count);
DEFINE_STATIC_KEY_ARRAY_FALSE(keys, count);
static_branch_likely()
static_branch_unlikely()

摘要

静态键允许在性能敏感的快速路径内核代码中包含很少使用的功能，通过GCC特性和代码修补技术实现。以下是一个快速示例：

DEFINE_STATIC_KEY_FALSE(key);

...

if (static_branch_unlikely(&key))
        执行不太可能的代码
else
        执行可能的代码

...
static_branch_enable(&key);
...
static_branch_disable(&key);
...

static_branch_unlikely()分支将以对可能代码路径的最小影响生成到代码中。

动机

目前，跟踪点是使用条件分支实现的。条件检查需要为每个跟踪点检查一个全局变量。尽管此检查的开销很小，但当内存缓存承受压力时（这些全局变量的内存缓存行可能与其他内存访问共享），开销会增加。随着内核中跟踪点数量的增加，这种开销可能变得更加严重。此外，跟踪点通常处于休眠状态（禁用），并且不提供直接的内核功能。因此，尽量减少它们的影响是非常可取的。虽然跟踪点是这项工作的最初动机，但其他内核代码路径应该能够利用静态键功能。

解决方案

gcc（v4.5）添加了一个新的'asm goto'语句，允许跳转到一个标签：

https://gcc.gnu.org/ml/gcc-patches/2009-07/msg01556.html

使用'asm goto'，我们可以创建默认情况下被执行或不被执行的分支，而无需检查内存。然后，在运行时，我们可以修补分支位置以改变分支方向。

例如，如果我们有一个默认情况下被禁用的简单分支：

if (static_branch_unlikely(&key))
        printk("I am the true branch\n");

因此，默认情况下不会发出'printk'。生成的代码将由一个单独的原子'no-op'指令（在x86上为5个字节）组成，位于直线代码路径中。当分支被'翻转'时，我们将在直线代码路径中的'no-op'修补为一个'jump'指令，以跳转到离线的真分支。因此，改变分支方向是昂贵的，但分支选择基本上是'免费'的。这是这种优化的基本权衡。

这种低级修补机制称为'跳转标签修补'，它为静态键功能提供了基础。

静态键标签API、用法和示例

为了利用这种优化，您首先必须定义一个键：

DEFINE_STATIC_KEY_TRUE(key);

或者：

DEFINE_STATIC_KEY_FALSE(key);

键必须是全局的，即不能在堆栈上分配或在运行时动态分配。

然后，在代码中使用该键：

if (static_branch_unlikely(&key))
        执行不太可能的代码
else
        执行可能的代码

或者：

if (static_branch_likely(&key))
        执行可能的代码
else
        执行不太可能的代码

通过DEFINE_STATIC_KEY_TRUE()或DEFINE_STATIC_KEY_FALSE定义的键可以在static_branch_likely()或static_branch_unlikely()语句中使用。

可以通过以下方式将分支设置为true：

static_branch_enable(&key);

或通过以下方式将分支设置为false：

static_branch_disable(&key);

然后，可以通过引用计数切换分支：

static_branch_inc(&key);
...
static_branch_dec(&key);

因此，'static_branch_inc()'表示'使分支为true'，'static_branch_dec()'表示'使分支为false'，并进行适当的引用计数。例如，如果键初始化为true，则static_branch_dec()将将分支切换为false。然后，随后的static_branch_inc()将分支改回true。同样，如果键初始化为false，则'static_branch_inc()'将分支改为true。然后，'static_branch_dec()'将再次使分支为false。

可以使用'static_key_enabled()'和'static_key_count()'获取状态和引用计数。通常情况下，如果使用这些函数，应该使用与启用/禁用或增加/减少函数相同的互斥锁进行保护。

请注意，切换分支会导致一些锁被获取，特别是CPU热插拔锁（为了避免内核在修补期间引入CPU时发生竞争）。因此，在热插拔通知器中调用静态键API肯定会导致死锁。为了仍然允许使用该功能，提供了以下函数：

static_key_enable_cpuslocked() static_key_disable_cpuslocked() static_branch_enable_cpuslocked() static_branch_disable_cpuslocked()

这些函数不是通用的，只能在确切知道自己处于上述上下文且没有其他上下文时使用。

如果需要一个键的数组，可以定义为：

DEFINE_STATIC_KEY_ARRAY_TRUE(keys, count);

或者：

DEFINE_STATIC_KEY_ARRAY_FALSE(keys, count);

架构级代码修补接口，'跳转标签'

为了利用这种优化，架构必须实现一些函数和宏。如果没有架构支持，我们将简单地回退到传统的加载、测试和跳转序列。此外，struct jump_entry表的对齐方式必须至少为4字节，因为static_key->entry字段使用了最低的两个有效位。

选择HAVE_ARCH_JUMP_LABEL，
```
  参见：arch/x86/Kconfig
```

define JUMP_LABEL_NOP_SIZE，

  参见：arch/x86/include/asm/jump_label.h

__always_inline bool arch_static_branch(struct static_key *key, bool branch),
```
  参见：arch/x86/include/asm/jump_label.h
```
__always_inline bool arch_static_branch_jump(struct static_key *key, bool branch),
```
  参见：arch/x86/include/asm/jump_label.h
```
void arch_jump_label_transform(struct jump_entry *entry, enum jump_label_type type),
```
  参见：arch/x86/kernel/jump_label.c
```

struct jump_entry，

  参见：arch/x86/include/asm/jump_label.h

静态密钥/跳转标签分析结果（x86_64）：

举个例子，让我们给'getppid()'添加以下分支，使得系统调用看起来像这样：

SYSCALL_DEFINE0(getppid)
{
      int pid;

+     if (static_branch_unlikely(&key))
+             printk("我是真分支\n");

      rcu_read_lock();
      pid = task_tgid_vnr(rcu_dereference(current->real_parent));
      rcu_read_unlock();

      return pid;
}

GCC生成的带有跳转标签的结果指令是：

ffffffff81044290 <sys_getppid>:
ffffffff81044290:       55                      push   %rbp
ffffffff81044291:       48 89 e5                mov    %rsp,%rbp
ffffffff81044294:       e9 00 00 00 00          jmpq   ffffffff81044299 <sys_getppid+0x9>
ffffffff81044299:       65 48 8b 04 25 c0 b6    mov    %gs:0xb6c0,%rax
ffffffff810442a0:       00 00
ffffffff810442a2:       48 8b 80 80 02 00 00    mov    0x280(%rax),%rax
ffffffff810442a9:       48 8b 80 b0 02 00 00    mov    0x2b0(%rax),%rax
ffffffff810442b0:       48 8b b8 e8 02 00 00    mov    0x2e8(%rax),%rdi
ffffffff810442b7:       e8 f4 d9 00 00          callq  ffffffff81051cb0 <pid_vnr>
ffffffff810442bc:       5d                      pop    %rbp
ffffffff810442bd:       48 98                   cltq
ffffffff810442bf:       c3                      retq
ffffffff810442c0:       48 c7 c7 e3 54 98 81    mov    $0xffffffff819854e3,%rdi
ffffffff810442c7:       31 c0                   xor    %eax,%eax
ffffffff810442c9:       e8 71 13 6d 00          callq  ffffffff8171563f <printk>
ffffffff810442ce:       eb c9                   jmp    ffffffff81044299 <sys_getppid+0x9>

没有跳转标签优化的情况下，看起来像：

ffffffff810441f0 <sys_getppid>:
ffffffff810441f0:       8b 05 8a 52 d8 00       mov    0xd8528a(%rip),%eax        # ffffffff81dc9480 <key>
ffffffff810441f6:       55                      push   %rbp
ffffffff810441f7:       48 89 e5                mov    %rsp,%rbp
ffffffff810441fa:       85 c0                   test   %eax,%eax
ffffffff810441fc:       75 27                   jne    ffffffff81044225 <sys_getppid+0x35>
ffffffff810441fe:       65 48 8b 04 25 c0 b6    mov    %gs:0xb6c0,%rax
ffffffff81044205:       00 00
ffffffff81044207:       48 8b 80 80 02 00 00    mov    0x280(%rax),%rax
ffffffff8104420e:       48 8b 80 b0 02 00 00    mov    0x2b0(%rax),%rax
ffffffff81044215:       48 8b b8 e8 02 00 00    mov    0x2e8(%rax),%rdi
ffffffff8104421c:       e8 2f da 00 00          callq  ffffffff81051c50 <pid_vnr>
ffffffff81044221:       5d                      pop    %rbp
ffffffff81044222:       48 98                   cltq
ffffffff81044224:       c3                      retq
ffffffff81044225:       48 c7 c7 13 53 98 81    mov    $0xffffffff81985313,%rdi
ffffffff8104422c:       31 c0                   xor    %eax,%eax
ffffffff8104422e:       e8 60 0f 6d 00          callq  ffffffff81715193 <printk>
ffffffff81044233:       eb c9                   jmp    ffffffff810441fe <sys_getppid+0xe>
ffffffff81044235:       66 66 2e 0f 1f 84 00    data32 nopw %cs:0x0(%rax,%rax,1)
ffffffff8104423c:       00 00 00 00

因此，禁用跳转标签的情况下，相比于使用跳转标签的情况，会增加一个'mov'、'test'和'jne'指令，而使用跳转标签的情况下只有一个'no-op'或'jmp 0'指令。（'jmp 0'在启动时被修补为一个5字节的原子no-op指令。）因此，禁用跳转标签的情况下增加了：

6（mov）+ 2（test）+ 2（jne）= 10 - 5（5字节跳转0）= 5个额外字节。

如果我们考虑填充字节，跳转标签代码节省了16个指令内存字节。在这种情况下，不使用跳转标签的函数长度为80字节。因此，我们节省了20%的指令占用空间。实际上，我们甚至可以进一步改进，因为5字节的no-op实际上可以是2字节的no-op，因为我们可以用2字节的jmp到达分支。然而，我们还没有实现最佳的no-op大小（它们目前是硬编码的）。

由于调度程序路径中存在许多静态密钥API用法，可以使用'pipe-test'（也称为'perf bench sched pipe'）来显示性能改进。在3.3.0-rc2上进行的测试如下：

禁用跳转标签：

执行'bash -c /tmp/pipe-test'的性能计数器统计（50次运行）：

Performance counter stats for 'bash -c /tmp/pipe-test' (50 runs):

       855.700314 task-clock                #    0.534 CPUs utilized            ( +-  0.11% )
          200,003 context-switches          #    0.234 M/sec                    ( +-  0.00% )
                0 CPU-migrations            #    0.000 M/sec                    ( +- 39.58% )
              487 page-faults               #    0.001 M/sec                    ( +-  0.02% )
    1,474,374,262 cycles                    #    1.723 GHz                      ( +-  0.17% )
  <not supported> stalled-cycles-frontend
  <not supported> stalled-cycles-backend
    1,178,049,567 instructions              #    0.80  insns per cycle          ( +-  0.06% )
      208,368,926 branches                  #  243.507 M/sec                    ( +-  0.06% )
        5,569,188 branch-misses             #    2.67% of all branches          ( +-  0.54% )

      1.601607384 seconds time elapsed                                          ( +-  0.07% )

启用跳转标签：

执行'bash -c /tmp/pipe-test'的性能计数器统计（50次运行）：

Performance counter stats for 'bash -c /tmp/pipe-test' (50 runs):

       841.043185 task-clock                #    0.533 CPUs utilized            ( +-  0.12% )
          200,004 context-switches          #    0.238 M/sec                    ( +-  0.00% )
                0 CPU-migrations            #    0.000 M/sec                    ( +- 40.87% )
              487 page-faults               #    0.001 M/sec                    ( +-  0.05% )
    1,432,559,428 cycles                    #    1.703 GHz                      ( +-  0.18% )
  <not supported> stalled-cycles-frontend
  <not supported> stalled-cycles-backend
    1,175,363,994 instructions              #    0.82  insns per cycle          ( +-  0.04% )
      206,859,359 branches                  #  245.956 M/sec                    ( +-  0.04% )
        4,884,119 branch-misses             #    2.36% of all branches          ( +-  0.85% )

      1.579384366 seconds time elapsed

节省的分支百分比为0.7%，我们在'branch-misses'上节省了12%。这正是我们期望获得最大节省的地方，因为这种优化是为了减少分支的数量。此外，我们在指令上节省了0.2%，在周期上节省了2.8%，在经过时间上节省了1.4%。