Controllable Guarantees for Fair Outcomes via Contrastive Information Estimation

发布时间 2023-05-06 14:41:55作者: 馒头and花卷

Gupta U., Ferber A. M., Dilkina B. and Steeg G. V. Controllable guarantees for fair outcomes via contrastive information estimation. AAAI, 2021.

本文提出了一种类似 Information Bottleneck 的方式用于保证两个群体的 fairness.

符合说明

  • \(\mathcal{D} = \{x_i, y_i, c_i\}_{i=1}^N\), 其中 \(x, y, c\) 分别为 features, label 和 sensitive attributes.

  • 我们用 \(\mathbf{x}, \mathbf{y}, \mathbf{c}\) 来表示对应的随机变量.

  • \(\mathbf{z}\), 隐变量.

Motivation

  • 假设我们考虑两个 group (\(\mathbf{c}=0, \mathbf{c}=1\)) 间的公平性, 一种常用的指标是:

    \[\Delta_{DP}(\mathcal{A}, \mathbf{c}) = |P(\hat{\mathbf{y}} = 1|\mathbf{c} = 1) - P(\hat{\mathbf{y}} = 1| \mathbf{c} = 0)|. \]

  • 但是上述指标是依赖算法 \(\mathcal{A}\) 的, 我们更希望有一个指标, 优化它能够对所有的算法都是有效的, 作者通过如下的定理给出这样的一个指标.

  • Theorem 2. 对于 \(z, c \sim p(\mathbf{z, c}), z \in \mathbb{R}^d, c \in \{0, 1\}\), 以及任意的算法 \(\mathcal{A}\), 我们有

    \[I(\mathbf{z}; \mathbf{c}) \ge g(\pi, \Delta_{DP}(\mathcal{A}, \mathbf{c})), \]

    其中 \(I(\cdot; \cdot)\) 表示互信息, \(\pi := P(\mathbf{c}=1)\), \(g\) 是一个单调递增的函数.

  • 该定理, 给了一个很好的直觉: 倘若我们能够保证 \(I(\mathbf{z;c})\) 足够小, 那么 \(g(\pi, \Delta_{DP}(\mathcal{A}, \mathbf{c}))\) 也足够小, 由于它是单调递增的, \(\Delta_{DP}(\mathcal{A}, \mathbf{c})\) 也需要足够小.

  • 于是, 一个对所有算法都有效的指标就是保证 \(I(\mathbf{z;c}) \le \delta\).

优化目标

  • 自然, 除了限制之外, 我们还希望 \(\mathbf{z}, \mathbf{y}\) 比较相关以利于后续的预测, 故我们的优化目标可以表述为:

    \[\begin{array}{rl} \max_{q(\mathbf{z|x})} & I(\mathbf{y;z}) \\ \text{s.t.} & I(\mathbf{z;c}) \le \delta. \end{array} \]

    或者采用如下的形式:

    \[\tag{1} \begin{array}{rl} \max_{q(\mathbf{z|x})} & I(\mathbf{y;z}) - \beta I(\mathbf{z;c}). \end{array} \]

  • 这一目标和普通的 information bottleneck 非常像

  • 但是这个损失存在一些问题, 如上图所示 \(I(\mathbf{y;z})\) 表示阴影部分加上黑色斜线的部分, 而 \(I(\mathbf{z;c})\) 表示阴影加上黑点部分, 所以增加 \(I(\mathbf{y;z})\) 极容易同时增加 \(I(\mathbf{z;c})\).

  • 实际上, 我们希望 \(\mathbf{z}\) 称为画红线的区域, 这部分的互信息实际上是:

    \[I(\mathbf{y;z|c}) \le H(\mathbf{y}|\mathbf{c}), \]

    故我们完全可以直接优化:

    \[\tag{2} \begin{array}{rl} \max_{q(\mathbf{z|x})} & I(\mathbf{y;z|c}) - \beta I(\mathbf{z;c}). \end{array} \]

  • 直接估计互信息是复杂的, 所以, 对于这类问题, 我们通常需要估计 \(I(\mathbf{y;z|c})\) 的一个下界, 以及 \(I(\mathbf{z;c})\) 的一个上界.

  • 容易证明:

    \[\tag{3} I(\mathbf{y;z|c}) \ge \underbrace{H(\mathbf{y|c})}_{\text{constant}} + \max_{r} \mathbb{E}_{\mathbf{y,z,c}} \log r(\mathbf{y|z,c}). \]

  • \(I(\mathbf{z;c})\) 的上界首先注意到:

    \[I(\mathbf{z}; \mathbf{x,c}) =I(\mathbf{z}; \mathbf{x}) +I(\mathbf{z}; \mathbf{c}|\mathbf{x}) =I(\mathbf{z}; \mathbf{c}) +I(\mathbf{z}; \mathbf{x}|\mathbf{c}), \]

    \(\mathbf{z}\) 仅与 \(\mathbf{x}\) 有关, 故 \(I(\mathbf{z;c|x})=0\), 故

    \[\tag{4} I(\mathbf{z;c}) = I(\mathbf{z;x}) - I(\mathbf{z;x|c}). \]

    (4) 是很有意思的, 它意味着, 最小化 \(I(\mathbf{z;c})\) 等价于最小化 \(I(\mathbf{z};\mathbf{x})\) (就像一般的 information bottleneck 一样), 同时最大化 \(I(\mathbf{z;x|c})\).

  • 很自然地, 为了推导 (3) 的下界, 我们需要找出 \(I(\mathbf{z;x})\) 的上界和 \(I(\mathbf{z;x|c})\) 的下界.

  • 根据 here 的 upper 可知

    \[\tag{5} I(\mathbf{z};\mathbf{x}) \le \mathbb{E}_{\mathbf{x}}\Bigg\{ \text{KL}(q(\mathbf{z|x;\phi}), p(\mathbf{z})) \Bigg\}. \]

    其中 \(p(\mathbf{z})\) 是先验分布, \(q(\mathbf{z|x;\phi})\) 是用来拟合 \(\mathbf{z}\) 的变分分布.

  • 根据 here 的 Multi-sample unnormalized lower bounds 可知

    \[\tag{6} I(\mathbf{z;x|c}) \ge \mathbb{E}_{\mathbf{z,x,c}} \log \frac{e^{f(z, x, c)}}{\frac{1}{M}\sum_{j=1}^M e^{f(\tilde{z}, x, c)}}, \]

    其中 \(\tilde{z} \sim P(\mathbf{z|c})\), \(f\) 可以是任意的函数.

  • 于是, 我们最终的损失是:

    \[\max_{q} \quad \underbrace{I(\mathbf{y;z|c})}_{(3)} - \beta [\underbrace{I(\mathbf{z;x})}_{(5)} - \lambda \underbrace{\mathbf{I}(\mathbf{z;x|c})}_{(6)}], \]

    这里额外的 \(\lambda\) 用于更好的平衡.

  • 可以发现:

    • (3) 实际上就是一般的交叉熵损失;
    • (5) 如果假设 \(p(\mathbf{z})\)是高斯先验, 可以有显示的表达式;
    • (6) 实际上是一个对比损失.

代码

official