500min 慢通线代-526互联

免责声明：本文是博主复习线代期末考试所用，并不适合所有人阅读，也并不保证所有内容完全正确。

教材：Linear Algebra, forth edition by S. H. Friedberg, A. J. Insel, L. E. Spence

本文将包含：

教材中大部分的定义；
教材中博主认为重要的定理，不那么显然的定理会带上简略证明过程；
博主的总结和浅薄的理解。

博主很懒，所以本文 latex 中不会出现 \mathbf 或 \mathsf 之类的字体，会略微降低阅读体验。

默认本文涉及到的所有变换均为线性变换。

关于有限维：涉及到 \(\dim\)、有序基底或者矩阵等的线性空间默认加上有限维的前提。对于其他限制了有限维的情况，会额外标注。

Chapter 1 - Vector Spaces

域 \(F\) 上的线性空间 \(V\)

两种运算：加法、数乘。对于 \(\forall x, y \in V\)，存在唯一的 \(x + y \in V\)；对于 \(\forall x \in V, a \in F\)，存在唯一的 \(ax \in V\)。

需要满足八条性质：加法交换律、加法结合律、存在零元、存在加法逆元、存在幺元、数乘结合律、向量加法对数乘分配律、标量加法对数乘的分配律。

这些定义可以导出一些常用的代数性质。

子空间

定义无需多言。

判定就是对于 \(\forall x, y \in W\)，检查是否有 \(cx + y \in W\)，其中 \(c \in F\)。

子空间的交也是子空间。

线性组合

定义无需多言。

\(\text{span}(S)\)：\(S\) 中元素的所有线性组合。显然其也是子空间。

若 \(\text{span}(S) = V\)，则称 \(S\) 生成 \(V\)。

线性相关 / 无关

定义无需多言。

基底

定义无需多言。

从一个生成 \(V\) 的有限集合 \(S\) 中构造基底：逐个添加并检查是否线性无关。

Replacement Theorem：设 \(|G| = n\)，\(V\) 是 \(G\) 生成的线性空间。令 \(L\) 为 \(V\) 的一个大小为 \(m\) 的线性无关子集，则存在 \(G\) 的大小为 \(n - m\) 的子集 \(H\)，使得 \(\text{span}(L \cup H) = V\)。可以对 \(m\) 归纳证明。

\(V\) 的任意基底大小相同，可以通过 Replacement Theorem 证明。这个相同的大小记为 \(\dim(V)\)。

\(V\) 中任意线性无关子集可以被扩展为一个基底。这是后面很多证明中常用的思路。

Chapter 2 - Linear Transformations and Matrices

线性变换

称 \(T : V \to W\) 是线性变换当且仅当对于 \(\forall x, y \in V\) 有 \(T(cx + y) = cT(x) + y\)。

定义 \(T\) 的值域 \(R(T) = \{T(x) \mid x \in V\}\)、零空间 \(N(T) = \{x \mid T(x) = 0\}\)。显然二者分别是 \(W\) 和 \(V\) 的子空间。

记 \(\text{rank}(T) = \dim(R(T)), \text{nullity}(T) = \dim(N(T))\)，则 \(\dim(V) = \text{rank}(T) + \text{nullity}(T)\)。可以通过找到 \(N(T)\) 的一组基底然后扩展的方法证明。

矩阵表示

把基底的元素标号，可以得到有序基底。

对于向量 \(x\) 和有序基底 \(\beta\)，将用 \(\beta\) 表示 \(x\) 的系数按顺序排成一列，可以得到 \(x\) 在 \(\beta\) 下的矩阵表示，记为 \([x]_{\beta}\)。

对于线性变换 \(T : V \to W\)，令 \(\beta, \gamma\) 分别为 \(V, W\) 的一组有序基底，定义 \([T]_{\beta}^{\gamma}\) 为一个 \(\dim(W) \times \dim(V)\) 的矩阵，其中第 \(j\) 列为 \([T(\beta_j)]_{\gamma}\)。当 \(\beta = \gamma\) 时右上角可以省略 \(\gamma\)。

记 \(L(V, W)\) 为所有 \(V \to W\) 的线性变换组成的集合，则 \(L(V, W)\) 也是一个线性空间，这意味着线性变换进行一些基础运算之后还是线性变换。

对于任意 \(x \in V\)，有 \([T(x)]_{\gamma} = [T]_{\beta}^{\gamma} [x]_{\beta}\)。

线性变换复合后也依然是线性变换，有 \([UT]_{\alpha}^{\gamma} = [U]_{\beta}^{\gamma}[T]_{\alpha}^{\beta}\)。

此后若干定义会同时对线性变换和矩阵定义，不过基本是一样的。因为矩阵需要依赖基底而线性变换不用，我们可以用线性变换来理解矩阵，并证明矩阵的一些性质。

逆

定义无需多言。

\(T\) 可逆当且仅当其是双射，即同时为单射和满射。

若 \(T : V \to W\) 可以，则称 \(V, W\) 同构。显然，在同一域 \(F\) 上的线性空间 \(V, W\) 同构当且仅当 \(\dim(V) = \dim(W)\)。

变换基底

令 \(I : V \to V\) 为单位变换，且令 \(\beta, \beta'\) 为两组有序基底，那么

\[[x]_{\beta'} = [I]_{\beta}^{\beta'} [x]_{\beta} \]

\[[T]_{\beta'} = [I]_{\beta}^{\beta'} [T]_{\beta} [I]_{\beta'}^{\beta} \]

由此我们可以定义矩阵的相似：称 \(n \times n\) 矩阵 \(A\) 与 \(B\) 相似，当且仅当存在可逆矩阵 \(Q\)，使得 \(B = Q^{-1}AQ\)。相似矩阵是同一线性变换在不同有序基底下的表示。

注意到 \(\text{tr}(AB) = \text{tr}(BA)\)，所以相似的矩阵有相同的迹。事实上，考察 \(A\) 的特征多项式，我们可以发现 \(\text{tr}(A)\) 实际上就是其对应线性变换的特征值之和，与选取的有序基底无关，所以上述性质自然成立。

对偶空间

对于 \(F\) 上的线性空间 \(V\)，定义 \(V\) 的对偶空间为 \(V^* = L(V, F)\)。

显然 \(\dim(V^*) = \dim(V)\)。令 \(n = \dim(V^*)\)，则 \(V^*\) 的一组基底为 \(\{f_1, f_2, \cdots, f_n\}\)，其中 \(f_i(\beta_j) = [i = j]\)。

对于 \(T : V \to W\)，定义 \(T^t : W^* \to V^*\)，满足 \(T^t(g) = gT\)。不难发现 \([T^t]_{\gamma*}^{\beta*} = ([T]_{\beta}^{\gamma})^t\)。

类似定义 \(V^{**}\)。定义 \(\hat x : V^* \to F\) 满足 \(\hat x(f) = f(x)\)，那么 \(\psi : V \to V^{**}\) 满足 \(\psi(x) = \hat x\) 是双射。

可以发现，任意一组 \(V\) 的有序基底都可以与 \(V^*\) 或 \(V^{**}\) 的一组有序基底对应。

Chapter 3 - Elementary Matrix Operations and Systems of Lienar Equations

LU 分解

一个前提条件是高消的过程中没有交换两行的操作。

目标是找到 \(A = LU\)，使得 \(L\) 是下三角矩阵，而 \(U\) 是上三角矩阵。在高消的过程中直接记录即可，因为保证了不会交换两行所以合法。

于是我们在解 \(Ax = b\) 时只需要分别解 \(Ly = b\) 和 \(Ux = y\)。

其他

一些和秩、逆或者行列式有关的证明或操作可以考虑分解为初等矩阵。

线性变换复合之后秩不会比任意一个大。

Chapter 4 - Determinants

定义无需多言。教材上的定义是递归式的；一种等价的定义是排列式的。

\(\det(AB) = \det(A)\det(B)\)，这个可以通过将 \(A\) 分解为初等矩阵后根据行列式的基本性质证明。一个简单的推论是：当 \(A\) 可逆时 \(\det(A^{-1}) = \det(A)^{-1}\)。

\(A, B\) 不是方阵的情况见我之前的博客，但是大概率没什么用。

\(\det(A^t) = \det(A)\)，同样通过将 \(A\) 分解为初等矩阵后证明。

克拉默法则：设 \(A\) 为 \(n \times n\) 的可逆矩阵，则 \(Ax = b\) 有唯一解。记 \(M_k\) 为将 \(A\) 的第 \(k\) 列替换为 \(b\) 得到的矩阵，则

\[x_k = \frac{\det(M_k)}{\det(A)} \]

非方阵

证明：令 \(x\) 为唯一解。记 \(X_k\) 为将 \(I\) 的第 \(k\) 列替换为 \(X\) 得到的矩阵，则 \(AX_k = M_k\)。于是

\[x_k = \det(X_k) = \frac{\det(M_k)}{\det(A)} \]

Chapter 5 - Diagonalization

特征值、特征向量、特征空间

若 \(T : V \to V\)，则称 \(T\) 为 \(V\) 上的线性算子。

对于线性算子 \(T\) 和 \(x \in V, x \ne 0\)，若 \(T(x) = \lambda x\)，则称 \(\lambda\) 为 \(T\) 的特征值，且 \(x\) 为其对应的特征向量。

给定有序基底 \(\beta\)，令 \(A = [T]_{\beta}\)，则 \(\lambda\) 为 \(T\) 的特征值当且仅当存在 \(x \ne 0\) 使得 \(Ax = \lambda x\)，即 \(A - \lambda I\) 的零空间不为 \(\{0\}\)，即 \(\det(A - \lambda I) = 0\)。称 \(f(t) = \det(A - tI)\) 为 \(T\) 的特征多项式。

不同的特征值对应的特征向量线性无关。形式化地，设 \(T(x_i) = \lambda_i x_i(i = 1, 2, \cdots, k)\)，其中 \(\lambda_i\) 两两不同，则 \(\{x_1, x_2, \cdots, x_k\}\) 线性无关。证明可以考虑对 \(k\) 归纳，假设 \(\sum a_i x_i = 0\)，同时对两侧施加 \(T - \lambda_k I\) 算子即可导出矛盾。

在 \(\mathbb C\) 中，\(f(t) = 0\) 有 \(n\) 个解。对于任意解 \(\lambda\)，称其在 \(n\) 个解中出现的次数为其的代数重数。令 \(\lambda\) 的特征空间为 \(E_{\lambda}\) 为 \(N(T - \lambda I)\)，称 \(\dim(E_{\lambda})\) 为其的几何重数。

几何重数介于 \(1\) 和代数重数之间。证明：考虑取 \(E_{\lambda}\) 的一个有序基底，并扩展为一个 \(V\) 的基底，求特征多项式可以发现 \((\lambda - t)^{\dim(E_{\lambda})}\) 是 \(f(t)\) 的一个因式。

\(T\) 可对角化当且仅当其所有特征值的几何重数等于代数重数。

如果在 \(\mathbb R\) 上讨论这些问题，还需要考虑 \(f(t) = 0\) 的解不都是实数的情况。

若 \(T\) 可对角化，则 \(V\) 为 \(T\) 的所有特征空间的直和。

\(T\) - 不变子空间

定义无需多言。

设 \(W\) 是 \(V\) 的 \(T\) - 不变子空间，\(T_W\) 是把定义域缩减到 \(W\) 后的线性算子，则 \(T_W\) 的特征多项式 \(f_W\) 是 \(T\) 的特征多项式的因式。

证明：方法和证明几何重数介于 \(1\) 和代数重数之间的方法类似。取 \(W\) 的一个有序基底，并将其扩展为 \(V\) 的一个有序基底，则

\[ [T]_{\beta} = \begin{pmatrix} B_1 & B_2 \\ O & B_3 \end{pmatrix} \]

其中 \(B_1\) 对应 \(W\) 的有序基底部分。则 \(\det(A - tI) = \det(B_1 - tI)\det(B_3 - tI)\)。

一个类似的结论：若 \(V = W_1 \oplus W_2 \cdots \oplus W_k\)，其中 \(W_i\) 是 \(T\) - 不变子空间，记 \(f_i\) 为 \(T_{W_i}\) 的特征多项式，则 \(f = \prod f_i\)。对 \(k\) 归纳证明即可。

对于 \(x\)，称 \(\text{span}(\{x, T(x), T^2(x), \cdots\})\) 为 \(x\) 生成的 \(T\) - 循环子空间。记其为 \(W\)，若 \(W\) 为有限维，记 \(k = \dim(W)\)，则 \(\{x, T(x), \cdots, T^{k-1}(x)\}\) 是 \(W\) 的一个基底。设 \(\sum_{i = 0} ^ {k - 1} a_i T^i(x) + T^k(x) = 0\)，则 \(T_W\) 的特征多项式是 \((-1)^k(\sum_{i = 0} ^ {k - 1} a_i t^i + t^k)\)。这个考察一下 \([T]_{\beta}\) 然后对 \(k\) 归纳一下即可。

Cayley–Hamilton Theorem：\(f(T) = T_0\)，其中 \(T_0(x) = 0\)。证明就是顺水推舟：对于 \(\forall x \in V\)，考虑 \(x\) 生成的 \(T\) - 循环子空间 \(W\)，则根据其特征多项式的形式能直接得出 \(f_W(T_W)(x) = 0\)；又因为其是 \(V\) 的子空间，所以 \(f_W\) 是 \(f\) 的因式，故 \(f(T)(x) = 0\)。

Chapter 6 - Inner Product Spaces

大的要来了。

内积

域 \(F\) 上的线性空间 \(V\) 上的内积 \(\langle x, y \rangle\) 是满足以下条件的二元函数：

\(\langle x + z, y \rangle = \langle x, y \rangle + \langle z, y \rangle\)；
\(\langle cx, y \rangle = c\langle x, y \rangle\)；
\(\langle x, y \rangle = \overline{\langle y, x \rangle}\)；
若 \(x \ne 0\)，则 \(\langle x, x \rangle > 0\)。

设 \(x = (a_1, a_2, \cdots, a_n)^t, y = (b_1, b_2, \cdots, b_n)^t\)。定义 \(\langle x, y \rangle = \sum_{i = 1} ^ n a_i\overline{b_i}\) 为 \(F^n\) 上的标准内积。

对于 \(m \times n\) 的矩阵 \(A\)，定义 \(A^*\) 为一个 \(n \times m\) 的矩阵，满足 \((A^*)_{ij} = \overline{A_{ji}}\)。

带有特定内积运算的线性空间 \(V\) 称为内积空间。当 \(F = \mathbb C\) 时，\(V\) 称为复内积空间；当 \(F = \mathbb R\) 时，\(V\) 称为实内积空间。

若对于 \(\forall x\) 有 \(\langle x, y \rangle = \langle x, z \rangle\)，则 \(y = z\)。

定义向量 \(x\) 的模长为 \(\sqrt{\langle x, x \rangle}\)。

柯西不等式：\(|\langle x, y \rangle| \le ||x|| \cdot ||y||\)。

证明：若 \(y = 0\) 则结论显然成立。否则考虑

\[ \begin{aligned} 0 & \le ||x - cy||^2 = \langle x - cy, x - cy \rangle \\ & = \langle x, x \rangle - \overline c \langle x, y \rangle - c \langle y, x \rangle + c^2 \langle y, y \rangle \end{aligned} \]

令 \(c = \frac{\langle x, y \rangle}{\langle y, y \rangle}\)，则不等式变为

\[0 \le \langle x, x \rangle - \frac{|\langle x, y \rangle|^2}{\langle y, y \rangle} = ||x||^2 - \frac{|\langle x, y \rangle|^2}{||y||^2} \]

即证。

三角不等式：\(||x + y|| \le |x| + |y|\)。可以拆开左侧然后通过柯西不等式证明。

正交

称 \(x, y\) 正交，当且仅当 \(\langle x, y \rangle = 0\)。

称 \(x\) 是单位向量，当且仅当 \(||x|| = 1\)。

称 \(V\) 的子集 \(S\) 是标准正交的，当且仅当其包含两两正交的单位向量。

定理：设 \(S = \{v_1, v_2, \cdots, v_k\}\) 是 \(V\) 的一个正交子集，\(x \in \text{span}(S)\)。则

\[x = \sum_i \frac{{\langle x, v_i \rangle}}{||v_i||^2} v_i \]

证明：令 \(x = \sum_i a_i v_i\)。则

\[\langle x, v_i \rangle = \langle \sum_i a_i v_i, v_i \rangle = \langle a_i v_i, v_i \rangle = a_i ||v_i||^2 \]

由此也可以得出，若 \(0 \not\in S\)，则 \(S\) 是线性无关的。

证明：若 \(\sum_i a_i v_i = 0\)，则对于 \(\forall p \in [1, k]\)，有 \(\langle \sum_i a_i v_i, v_p \rangle = a_p ||v_p||^2 = 0\)，故 \(a_p = 0\)。

定理：设 \(S = \{w_1, w_2, \cdots, w_n\}\) 是 \(V\) 的一个线性无关子集，我们可以通过如下方式得到正交子集 \(S' = \{v_1, v_2, \cdots, v_n\}\)，使得 \(\text{span}(S') = \text{span}(S)\)：对于 \(k = 1, 2, \cdots, n\)，令

\[v_k = w_k - \sum_{i = 1} ^ {k - 1} \frac{\langle w_k, v_i \rangle}{||v_i||^2} v_i \]

证明可以考虑直接对 \(k\) 归纳证明。

上面的过程被称为 Gram–Schmidt 过程。

于是，对于任意有限维内积空间 \(V\)，我们总能找到一组标准正交基 \(\beta = \{v_1, v_2, \cdots, v_n\}\)，则对于 \(\forall x \in V\)，有

\[x = \sum_i \langle x, v_i \rangle v_i \]

对于任意线性算子 \(T\)，我们也能直接得到

\[[T]_{\beta_{ij}} = \langle T(v_j), v_i \rangle \]

对于 \(V\) 的标准正交子集 \(\beta = \{v_1, v_2, \cdots\}\) 和 \(x \in V\)，称 \(v_i\) 为 \(\langle x, v_i \rangle\) 为 \(x\) 关于 \(\beta\) 的第 \(i\) 个傅里叶系数。

对于 \(V\) 的非空子集 \(S\)，令 \(S^{\perp} = \{x \in V : \forall y \in S, \langle x, y \rangle = 0\}\)。显然 \(S^{\perp}\) 是 \(V\) 的子空间。

定理：令 \(W\) 是 \(V\) 的一个 有限维 子空间，\(y \in V\)，则存在唯一的 \(u \in W\) 和 \(z \in W^{\perp}\)，满足 \(y = u + z\)。令 \(\beta = \{v_1, v_2, \cdots, v_k\}\) 为 \(W\) 的一组标准正交基，则

\[u = \sum_i \langle y, v_i \rangle v_i \]

证明：\(u \in W\) 和 \(z = y - u \in W^{\perp}\) 很显然，直接用内积证明即可。注意到 \(W \cap W^{\perp} = \{0\}\)，于是假设 \(y = u + z = u' + z'\)，则 \(u - u' \in W, z' - z \in W^{\perp}\)，而 \(u - u' = z' - z\)，故 \(u = u', z = z'\)。

从几何上理解，\(u\) 是 \(W\) 中距离 \(y\) 最近的点。可以通过对于 \(\forall x \in W\)，有 \(||y - x||^2 = ||(u - x) + z||^2 = ||u - x||^2 + ||z||^2 \ge ||z||^2\) 来证明。

\(u\) 被称为 \(y\) 在 \(W\) 上的正交投影。

对于内积空间 \(V\) 和其 有限维 子空间 \(W\)，有 \(V = W \oplus W^{\perp}\)。

伴随

定理：令 \(V\) 为 有限维 内积空间。任意 \(V \to F\) 的线性变换可以看作求与特殊向量的内积。形式化地，令 \(g : V \to F\)，则存在 \(y \in V\)，使得对于 \(\forall y \in V\) 有 \(g(x) = \langle x, y \rangle\)。

证明：令 \(\beta = \{v_1, v_2, \cdots, v_n\}\) 为 \(V\) 的一组标准正交基。直接令 \(y = \sum_i \overline{g(v_i)} v_i\) 即可，正确性应该是显然的。

同时，显然这样的 \(y\) 是唯一的。

定理：令 \(V\) 为 有限维 内积空间，\(T\) 为 \(V\) 上的线性算子。存在唯一的线性算子 \(T^*\)，使得对于 \(\forall x, y \in V\) 有 \(\langle T(x), y \rangle = \langle x, T^*(y) \rangle\)。

证明：首先考虑固定 \(y\)，令 \(g(x) = \langle T(x), y \rangle\)。根据上一个定理，存在 \(y' \in V\) 使得对于 \(\forall x \in V\) 有 \(g(x) = \langle x, y' \rangle\)，令 \(T^*(x) = y'\) 即可。

接下来我们需要证明 \(T^*\) 是线性的。因为对 \(\forall x\) 有

\[ \begin{aligned} \langle x, T^*(cy_1 + y_2) \rangle & = \langle T(x), cy_1 + y_2 \rangle \\ & = \overline c\langle T(x), y_1 \rangle + \langle T(x), y_2 \rangle \\ & = \overline c\langle x, T*(y_1) \rangle + \langle x, T^*(y_2) \rangle \\ & = \langle x, cT^*(y_1) + T^*(y_2) \rangle \end{aligned} \]

所以 \(T^*(cy_1 + y_2) = cT^*(y_1) + T^*(y_2)\)，因此 \(T^*\) 是线性的。因为对于每个 \(y\)，\(T^*(y)\) 有唯一的取值，所以 \(T^*\) 是唯一的。

\(T^*\) 称为 \(T\) 的伴随算子。

定理：令 \(V\) 为 有限维 内积空间，\(T\) 为 \(V\) 上的线性算子，\(\beta = \{v_1, v_2, \cdots, v_n\}\) 为 \(V\) 的一组标准正交基。则 \([T^*]_{\beta} = [T]_{\beta}^*\)。

证明：\([T^*]_{\beta_{ij}} = \langle T^*(v_j), v_i \rangle = \overline{\langle v_i, T^*(v_j) \rangle} = \overline{\langle T(v_i), v_j \rangle} = \overline{[T]_{\beta_{ji}}}\)。

由此可见，\(T^{**} = T\)。

最小二乘法

平面上有 \(n\) 个点 \((t_1, y_1), (t_2, y_2), \cdots, (t_n, y_n)\)，其中 \(t_i\) 两两不同。需要用一条直线 \(y = ct + d\) 拟合这 \(n\) 个点，使得误差最小。误差定义为 \(\sum_i (y_i - c t_i - d)^2\)。

做法：令

\[ A = \begin{pmatrix} t_1 & 1 \\ t_2 & 1 \\ \vdots & \vdots \\ t_n & 1 \end{pmatrix}, x = \begin{pmatrix} c \\ d \end{pmatrix}, y = \begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{pmatrix} \]

我们实际上要最小化 \(||y - Ax||^2\)。我们不妨考虑 \(A\) 是任意 \(m \times n\) 矩阵的情况，此时我们在 \(R(A)\) 中找离 \(y\) 最近的点，所以最优的 \(x\) 满足 \(y - Ax \perp R(A)\)。也就是 \(A^*(y - Ax) = 0\)，可以理解为 \(x\) 与 \(A\) 的每一列与 \(y - Ax\) 的内积为 \(0\)。所以最优的 \(x\) 满足 \(A^*Ax = A^*y\)。

注意到对于 \(\forall x \ne 0\)，有 \(A^*Ax = 0 \Leftrightarrow x^*A^*Ax = 0 \Leftrightarrow \langle Ax, Ax \rangle = 0 \Leftrightarrow Ax = 0\)，显然 \(N(A^*A) = N(A)\)，所以当 \(\text{rank}(A) = n\) 时，\(x = (A^*A)^{-1} A^* y\)。

书上证明 \(\text{rank}(A^*A) = \text{rank}(A)\) 的表述方式是首先注意到 \(\langle Ax, y \rangle _m = \langle x, A^*y \rangle _n\)，然后说明 \(\langle A^*Ax, x \rangle _n = \langle Ax, Ax \rangle _m\)，和上面方法的区别只是表述方式的不同。

线性方程组的最小解

同理，设一个特解为 \(u\)，则解空间为 \(u + N(A)\)。最优解需要与 \(N(A)\) 垂直，因为 \(N(A)^{\perp} = R(A^*)\) 所以最优解为 \(R(A^*)\) 中的解。更具体地，\(AA^*x = b\) 有解 \(x = x'\)，最优解即 \(x = A^* x'\)。显然解存在且唯一。