Graph Construction and b-Matching for Semi-Supervised Learning-526互联

Jebara T., Wang J. and Chang S. Graph construction and b-matching for semi-supervised learning. ICML, 2009.

概

本文综合性地论述和比较了不同地的图 (邻接矩阵) 的构造方法, 设计稀疏化 (sparsification), reweighting. 最后, 在此基础上讨论了 label 的半监督学习问题.

图的稀疏化, 或者说邻接矩阵 \(A\) 的稀疏化, 就是找一个二元的稀疏矩阵

\[P \in \mathbb{R}^{n \times n}, \]
\(P_{ij} = 1\) 表示边 \((v_i, v_j)\) 被保留, 否则被移除.
在实际中, 距离矩阵 (distance matrix) 会比 \(A\) 更为常用一些:

\[D_{ij} = \sqrt{A_{ii} + A_{jj} - 2A_{ij}} = \sqrt{k(\mathbf{x}_i,\mathbf{x}_i) + k(\mathbf{x}_j, \mathbf{x}_j) - 2k(\mathbf{x}_i, \mathbf{x}_j)}. \]

这种方式的直接意义就是希望每个结点都有 \(k\) 个一阶邻居, 它实际上实在优化如下的问题:

\[\begin{array}{rl} \min_{P \in \mathbb{B}} & \sum_{ij} P_{ij} D_{ij} \\ \text{s.t.} & \sum_{j} P_{ij} = k, P_{ii} = 0, \forall i, j \in [n]. \end{array} \]
这里 \([n] := \{1, 2, \ldots, n\}\).
实际上, 我们一般用贪心算法, 为每个结点找到它的最合适 (也就是距离最小的) \(k\) 个邻居, 由此得到 \(\hat{P}\).
但是, 很明显, 这种情况得到的 \(\hat{P}\) 是不一定对称的, 所以实际上我们通常令

\[P = \max(\hat{P}, \hat{P}^T), \]
以保证 \(P\) 的对称性.
不过, 这种做法会导致有些结点的一阶邻居个数大于 \(k\) 个.

这种方式旨在求解如下的问题:

\[\begin{array}{rl} \min_{P \in \mathbb{B}} & \sum_{ij} P_{ij} D_{ij} \\ \text{s.t.} & \sum_{j} P_{ij} = k, P_{ii} = 0, P_{ij} = P_{ji}, \forall i, j \in [n]. \end{array} \]
精确求解该问题是不易的, 通常使用 loopy belief propagation 来求解.

有了 \(P\) 之后, 一种直接的做法就是令

\[W = P \odot A, \]
不过这么简单粗暴地丢掉别的信息似乎也不怎么好.
Gaussian kernel:

\[W_{ij} = P_{ij} \exp(- \frac{d(\mathbf{x}_i, \mathbf{x}_j)}{2 \sigma^2}), \]
利用高斯核重新估计. 这里的距离函数有很多种, 比如:

\[d_1(\mathbf{x}_i, \mathbf{x}_j) = |\mathbf{x}_i - \mathbf{x}_j| \\ d_2(\mathbf{x}_i, \mathbf{x}_j) = \|\mathbf{x}_i - \mathbf{x}_j\| \\ d_3(\mathbf{x}_i, \mathbf{x}_j) = \sum_{k} \frac{(x_{ik} - x_{jk})^2}{x_{ik} + x_{jk}}. \]
另外一种方式是通过优化的方式:

\[\min_{W} \sum_i \epsilon_i = \sum_i\|\mathbf{x}_i - \sum_{j=1}^n P_{ij} W_{ij} \mathbf{x}_j\|^2, \\ \text{s.t.} \sum_{j} W_{ij} = 1, W_{ij} \ge 0. \]
即, 我们希望 \(W\) 能够使得重构误差是最小的.

注: 关于剩下的半监督学习的部分, 之后独立地整理.