一些矩阵的非刚性 (1)

发布时间 2023-11-29 13:58:22作者: EntropyIncreaser

\(\newcommand{\rank}{\operatorname{rank}}\newcommand{\codim}{\operatorname{codim}}\)

矩阵刚性 (matrix rigidity) 是这样一个概念: 对于一个矩阵 \(M\), 我们可能希望将它分解为 \(M = L + S\) 的形式, 其中 \(L\) 的秩比较低, 而 \(S\) 的非零元素数量比较少 (记为 \(\| S \|_0\)).

具体来说, 对于 \(M\), 我们称 \(R_M(r) \leq s\) 当且仅当存在 \(M = L+S\), 满足 \(\rank L \leq r\), 且 \(\| S\|_0 \leq s\). 注意这里我们省略了一个基域的问题, 如果有需要的话, 我们需要明确 \(L, S \in \mathbb F^{n\times m}\) 的时候, 会写作 \(R_M^{\mathbb F}(r)\).

对于所有 \(n\times n\) 矩阵 \(M\), 不难发现我们总是有 \(R_M(r) \leq (n-r)^2\), 对于一般矩阵来说, 也很难做到更好了. 但有趣的是, 我们常见的矩阵基本上都不止如此.

代数线性电路下界的 Valiant 纲领

矩阵刚性这个概念本身最早由 Valiant 提出. 他的目的是证明线性代数问题的电路下界.

所谓线性的代数问题是一类可能算是最为简单的问题, 也就是有一族矩阵 \(\{A_n\}\), 我们的问题是输入向量 \(x\), 计算 \(A x\). 并且我们研究的是电路问题, 我们限制电路里的所有节点都是形如线性组合 \(f(x_i, x_j) = ax_i + bx_j\) 的形式, 其中 \(a, b\) 是电路自己设置的常数.

显然, 对于一个比较 "正常" 的矩阵, 也即有的输出取决于所有输入, 那么电路的深度至少是 \(\log n\) 的, 而且电路的大小至少是 \(n\).

那么能不能对于一些经典的矩阵, 得到比这个强的下界呢? 很遗憾的是我们基本上无能为力. 这个问题目前的进展是这样的: 容易发现, 随机矩阵确实是需要很大的电路的 (这基本上就是一个鸽笼原理), 但如果我们想要在一个 "合理" 的, 认为一定意义上刻画了经典计算的域上, 也即有限域 \(\mathbb F_q\), 又希望能够确定性的用图灵机生成一个难以计算的矩阵, 那么目前基本上只能在 \(2^{O(n)}\) 的时间内完成这一点.

Valiant 的想法是这样的: 如果一族问题 \(\{A_n\}\) 都特别好算, 也即, 存在 \(O(n)\) 大小, \(O(\log n)\) 深度的电路, 那么这会推出这族矩阵具有非常强的非刚性 (刚性看起来是一个比电路复杂度好研究的刻画). 那么反之, 如果我们证明了一族矩阵具有一定程度的刚性, 就可以推出这族矩阵不可能有 \(O(n)\) 大小, \(O(\log n)\) 深度的电路.

具体而言, Valiant 得到了如下的刻画.

定理. 对于一族矩阵 \(\{A_n\}\), 存在 \(O(n)\) 大小, \(O(\log n)\) 深度的电路, 那么对任意 \(\epsilon > 0\), 有 \(\delta > 0\), 使得对于充分大的 \(n\),

\[r_{A_n} \left(\delta \cdot \frac{n}{\log \log n}\right) \ll n^{1+\epsilon}. \]

所以, 我们称一族矩阵 \(\{A_n\}\) 满足 Valiant 刚性, 即存在 \(\delta > 0\), 对任意 \(\epsilon\), 都有无穷多个 \(n\),

\[r_{A_n} \left(\epsilon \cdot \frac{n}{\log \log n}\right) > n^{1+\delta}. \]

或者有时候我们也把 "无穷多个 \(n\)" 改成 "对于充分大的 \(n\)".

证明. 我们考虑一个大小为 \(m\), 深度为 \(d\) 的电路.

我们每次可以删掉电路中不超过 \(m / \lceil\log d\rceil\) 条 "线路", 使得电路的深度减半. 方法如下: 既然深度 \(\leq d\), 那么存在一个赋值 \(1\leq v(x) \leq d\), 使得 \(x\)\(y\) 有一条线路, 那么 \(v(x) < v(y)\). 对于每条线路 \((x, y)\), 令 \(l(x, y)\) 是二进制表示 \(v(y) - v(x)\) 的最低位. 根据鸽笼原理, 一定存在一个 \(\ell\), 使得 \(l(x, y) = \ell\) 的线路数不超过 \(m / \lceil\log d\rceil\). 那么我们可以删掉所有这样的线路. 对于任何一条长度超过 \(d/2\) 的路径, 一定每个二进制位都作为最低位变化过一次, 所以这些路径都不存在了. 这就说明电路的深度减半.

我们重复直到 \(d' \leq \epsilon d\), 这过程总共移除的线路不超过

\[m \cdot \left(\frac{1}{\log d} + \frac 1{\log d - 1} + \cdots + \frac{1}{\log(\epsilon d)}\right) = O\left(\frac{m}{\log d} \log (\epsilon^{-1})\right) \]

条, 注意到每次移除一条线路, 相当于对于计算的结果产生了一个 \(\rank = 1\) 的扰动. 而最后的电路深度不超过 \(\epsilon d\), 所以我们剩下的电路可以写成只有 \(n\cdot 2^{\epsilon d}\) 个非零元素的矩阵.

\(d = O(\log n)\)\(m = O(n)\) 时, 我们就得到了结论. \(\square\)

这看起来是一个容易搬到的事情, 因为对于随机矩阵来说, 我们有 \(r_A(o(n)) = (1-o(1))n^2\) 啊! 但事实却是, 很多矩阵连 Valiant 纲领的刚性都不满足.

\(\mathbb F_q\)-循环矩阵的非刚性 (Dvir & Edelman, 2019)

固定一个 \(n\) 维的 \(\mathbb F_q\)-线性空间 \(V\), 以及任意一个函数 \(f\colon V \to \mathbb F_q\). 我们可以定义矩阵 \(M_{xy} = f(x+y)\).

事实上, 这类矩阵具有很强的非刚性.

定理. 固定 \(q\), 令 \(N = q^n\), 那么对于任意 \(\epsilon > 0\), 存在 \(\delta > 0\), 使得

\[R_{M}(N^{1-\delta}) \ll N^{1+\epsilon}. \]

证明. 我们首先考虑用一个 "低次多项式" 去在 \(\| \cdot \|_0\) 意义上拟合 \(f\). 由于是一个 \(n\) 维线性空间, 我们考虑其 \(n\) 维坐标 \((T_1,\dots,T_n)\), 我们知道 \(T_1^{i_1}\cdots T_n^{i_n}, 0\leq i_j < q\) 是一组基. 考虑其中所有 \(\deg \leq (1 - \epsilon) (q-1)n\) 的部分, 张成的线性空间记为 \(W\). 那么对于任意一个 \(f\), 我们可以通过消元法得到 \(f'\in W\) 使得 \(\| f - f' \|_0 \leq \codim W\). 进而得到

\[M = L + S, \]

其中 \(L_{xy} = f'(x+y)\), 那么 \(\|S\|_0 \leq N \cdot \codim W\).
所以 \(\codim W\) 有多大呢? 也就是那些度数 \(> (1-\epsilon)\cdot (q-1)n\) 的数量, 反过来说, 就是那些度数 \(\leq \epsilon \cdot (q-1)n\) 的数量. 经过类似 Chernoff bound 的计算, 容易得到

\[\codim W \leq \exp \left\{ O\left(\epsilon (q-1) \log \frac{1}{\epsilon(q-1)}\right)n \right\}, \]

也即

\[\| S\|_0 \leq N^{1 + O\left(\epsilon (q-1) \log \frac{1}{\epsilon(q-1)}\right)}. \]

那么我们考虑 \(L\) 侧. 注意到 \(\deg f \leq (1-\epsilon) \cdot (q-1)n\), 那么对于 \(f'(x + y)\), 我们将其拆开, 得到每一项 \(x^i y^j\) 一定有 \(\min\{\deg (x^i), \deg(y^j) \}\leq (1-\epsilon)/2 \cdot (q-1)n\), 所以我们可以将它们分成两组, 得到

\[L_{xy} = \sum_{\deg(x^i) \leq (1-\epsilon)/2 \cdot (q-1)n} x^i u_i(y) + \sum_{\deg(y^j) \leq (1-\epsilon)/2 \cdot (q-1)n} y^j v_j(x), \]

根据 Hoeffding 不等式, 我们可以得到

\[\begin{align*} \rank L &\leq 2 \cdot q^n \cdot \Pr[(X_1+\cdots+X_n)/n \\ &\leq 1/2 - \epsilon / 2] = 2\cdot q^n / \exp \Omega(n\epsilon^2)\\ &= N^{1 - \Omega(\epsilon^2 / \log q)}. \end{align*}\]

重新调整一下 \(\epsilon\), 我们就可以得到

\[R_M \left( N^{1 - \Omega\left(\frac{\epsilon^2}{(\log 1/\epsilon)^2} \cdot \frac{\log q}{(q-1)^2}\right)} \right) \leq N^{1+\epsilon}. \]

值得注意的是, 上述证明给出的非刚性不仅是 \(N^{1+\epsilon}\) 个非零项, 而且这些非零项还是每行每列都只有不超过 \(N^{\epsilon}\) 个非零项的, 这是一种更强的非刚性. \(\square\)

上面这个通过 \(f(x+y)\) 把多项式的次数分成两部分的技巧被称为 Polynomial Method. 曾在加性组合里给出了 \(\mathbb Z_4^n\) 上 (Croot–Lev–Pach) 和 \(\mathbb F_3^n\) 上的 (Ellenberg–Gijswijt) 不存在长为 \(3\) 大小的等差数列的集合的控制.