免责声明:本文是博主复习线代期末考试所用,并不适合所有人阅读,也并不保证所有内容完全正确。
教材:Linear Algebra, forth edition by S. H. Friedberg, A. J. Insel, L. E. Spence
本文将包含:
- 教材中大部分的定义;
- 教材中博主认为重要的定理,不那么显然的定理会带上简略证明过程;
- 博主的总结和浅薄的理解。
博主很懒,所以本文 latex 中不会出现 \mathbf
或 \mathsf
之类的字体,会略微降低阅读体验。
默认本文涉及到的所有变换均为线性变换。
关于有限维:涉及到 \(\dim\)、有序基底或者矩阵等的线性空间默认加上有限维的前提。对于其他限制了有限维的情况,会额外标注。
Chapter 1 - Vector Spaces
域 \(F\) 上的线性空间 \(V\)
两种运算:加法、数乘。对于 \(\forall x, y \in V\),存在唯一的 \(x + y \in V\);对于 \(\forall x \in V, a \in F\),存在唯一的 \(ax \in V\)。
需要满足八条性质:加法交换律、加法结合律、存在零元、存在加法逆元、存在幺元、数乘结合律、向量加法对数乘分配律、标量加法对数乘的分配律。
这些定义可以导出一些常用的代数性质。
子空间
定义无需多言。
判定就是对于 \(\forall x, y \in W\),检查是否有 \(cx + y \in W\),其中 \(c \in F\)。
子空间的交也是子空间。
线性组合
定义无需多言。
\(\text{span}(S)\):\(S\) 中元素的所有线性组合。显然其也是子空间。
若 \(\text{span}(S) = V\),则称 \(S\) 生成 \(V\)。
线性相关 / 无关
定义无需多言。
基底
定义无需多言。
从一个生成 \(V\) 的有限集合 \(S\) 中构造基底:逐个添加并检查是否线性无关。
Replacement Theorem:设 \(|G| = n\),\(V\) 是 \(G\) 生成的线性空间。令 \(L\) 为 \(V\) 的一个大小为 \(m\) 的线性无关子集,则存在 \(G\) 的大小为 \(n - m\) 的子集 \(H\),使得 \(\text{span}(L \cup H) = V\)。可以对 \(m\) 归纳证明。
\(V\) 的任意基底大小相同,可以通过 Replacement Theorem 证明。这个相同的大小记为 \(\dim(V)\)。
\(V\) 中任意线性无关子集可以被扩展为一个基底。这是后面很多证明中常用的思路。
Chapter 2 - Linear Transformations and Matrices
线性变换
称 \(T : V \to W\) 是线性变换当且仅当对于 \(\forall x, y \in V\) 有 \(T(cx + y) = cT(x) + y\)。
定义 \(T\) 的值域 \(R(T) = \{T(x) \mid x \in V\}\)、零空间 \(N(T) = \{x \mid T(x) = 0\}\)。显然二者分别是 \(W\) 和 \(V\) 的子空间。
记 \(\text{rank}(T) = \dim(R(T)), \text{nullity}(T) = \dim(N(T))\),则 \(\dim(V) = \text{rank}(T) + \text{nullity}(T)\)。可以通过找到 \(N(T)\) 的一组基底然后扩展的方法证明。
矩阵表示
把基底的元素标号,可以得到有序基底。
对于向量 \(x\) 和有序基底 \(\beta\),将用 \(\beta\) 表示 \(x\) 的系数按顺序排成一列,可以得到 \(x\) 在 \(\beta\) 下的矩阵表示,记为 \([x]_{\beta}\)。
对于线性变换 \(T : V \to W\),令 \(\beta, \gamma\) 分别为 \(V, W\) 的一组有序基底,定义 \([T]_{\beta}^{\gamma}\) 为一个 \(\dim(W) \times \dim(V)\) 的矩阵,其中第 \(j\) 列为 \([T(\beta_j)]_{\gamma}\)。当 \(\beta = \gamma\) 时右上角可以省略 \(\gamma\)。
记 \(L(V, W)\) 为所有 \(V \to W\) 的线性变换组成的集合,则 \(L(V, W)\) 也是一个线性空间,这意味着线性变换进行一些基础运算之后还是线性变换。
对于任意 \(x \in V\),有 \([T(x)]_{\gamma} = [T]_{\beta}^{\gamma} [x]_{\beta}\)。
线性变换复合后也依然是线性变换,有 \([UT]_{\alpha}^{\gamma} = [U]_{\beta}^{\gamma}[T]_{\alpha}^{\beta}\)。
此后若干定义会同时对线性变换和矩阵定义,不过基本是一样的。因为矩阵需要依赖基底而线性变换不用,我们可以用线性变换来理解矩阵,并证明矩阵的一些性质。
逆
定义无需多言。
\(T\) 可逆当且仅当其是双射,即同时为单射和满射。
若 \(T : V \to W\) 可以,则称 \(V, W\) 同构。显然,在同一域 \(F\) 上的线性空间 \(V, W\) 同构当且仅当 \(\dim(V) = \dim(W)\)。
变换基底
令 \(I : V \to V\) 为单位变换,且令 \(\beta, \beta'\) 为两组有序基底,那么
由此我们可以定义矩阵的相似:称 \(n \times n\) 矩阵 \(A\) 与 \(B\) 相似,当且仅当存在可逆矩阵 \(Q\),使得 \(B = Q^{-1}AQ\)。相似矩阵是同一线性变换在不同有序基底下的表示。
注意到 \(\text{tr}(AB) = \text{tr}(BA)\),所以相似的矩阵有相同的迹。事实上,考察 \(A\) 的特征多项式,我们可以发现 \(\text{tr}(A)\) 实际上就是其对应线性变换的特征值之和,与选取的有序基底无关,所以上述性质自然成立。
对偶空间
对于 \(F\) 上的线性空间 \(V\),定义 \(V\) 的对偶空间为 \(V^* = L(V, F)\)。
显然 \(\dim(V^*) = \dim(V)\)。令 \(n = \dim(V^*)\),则 \(V^*\) 的一组基底为 \(\{f_1, f_2, \cdots, f_n\}\),其中 \(f_i(\beta_j) = [i = j]\)。
对于 \(T : V \to W\),定义 \(T^t : W^* \to V^*\),满足 \(T^t(g) = gT\)。不难发现 \([T^t]_{\gamma*}^{\beta*} = ([T]_{\beta}^{\gamma})^t\)。
类似定义 \(V^{**}\)。定义 \(\hat x : V^* \to F\) 满足 \(\hat x(f) = f(x)\),那么 \(\psi : V \to V^{**}\) 满足 \(\psi(x) = \hat x\) 是双射。
可以发现,任意一组 \(V\) 的有序基底都可以与 \(V^*\) 或 \(V^{**}\) 的一组有序基底对应。
Chapter 3 - Elementary Matrix Operations and Systems of Lienar Equations
LU 分解
一个前提条件是高消的过程中没有交换两行的操作。
目标是找到 \(A = LU\),使得 \(L\) 是下三角矩阵,而 \(U\) 是上三角矩阵。在高消的过程中直接记录即可,因为保证了不会交换两行所以合法。
于是我们在解 \(Ax = b\) 时只需要分别解 \(Ly = b\) 和 \(Ux = y\)。
其他
一些和秩、逆或者行列式有关的证明或操作可以考虑分解为初等矩阵。
线性变换复合之后秩不会比任意一个大。
Chapter 4 - Determinants
定义无需多言。教材上的定义是递归式的;一种等价的定义是排列式的。
\(\det(AB) = \det(A)\det(B)\),这个可以通过将 \(A\) 分解为初等矩阵后根据行列式的基本性质证明。一个简单的推论是:当 \(A\) 可逆时 \(\det(A^{-1}) = \det(A)^{-1}\)。
\(A, B\) 不是方阵的情况见我 之前的博客,但是大概率没什么用。
\(\det(A^t) = \det(A)\),同样通过将 \(A\) 分解为初等矩阵后证明。
克拉默法则:设 \(A\) 为 \(n \times n\) 的可逆矩阵,则 \(Ax = b\) 有唯一解。记 \(M_k\) 为将 \(A\) 的第 \(k\) 列替换为 \(b\) 得到的矩阵,则
非方阵
证明:令 \(x\) 为唯一解。记 \(X_k\) 为将 \(I\) 的第 \(k\) 列替换为 \(X\) 得到的矩阵,则 \(AX_k = M_k\)。于是
Chapter 5 - Diagonalization
特征值、特征向量、特征空间
若 \(T : V \to V\),则称 \(T\) 为 \(V\) 上的线性算子。
对于线性算子 \(T\) 和 \(x \in V, x \ne 0\),若 \(T(x) = \lambda x\),则称 \(\lambda\) 为 \(T\) 的特征值,且 \(x\) 为其对应的特征向量。
给定有序基底 \(\beta\),令 \(A = [T]_{\beta}\),则 \(\lambda\) 为 \(T\) 的特征值当且仅当存在 \(x \ne 0\) 使得 \(Ax = \lambda x\),即 \(A - \lambda I\) 的零空间不为 \(\{0\}\),即 \(\det(A - \lambda I) = 0\)。称 \(f(t) = \det(A - tI)\) 为 \(T\) 的特征多项式。
不同的特征值对应的特征向量线性无关。形式化地,设 \(T(x_i) = \lambda_i x_i(i = 1, 2, \cdots, k)\),其中 \(\lambda_i\) 两两不同,则 \(\{x_1, x_2, \cdots, x_k\}\) 线性无关。证明可以考虑对 \(k\) 归纳,假设 \(\sum a_i x_i = 0\),同时对两侧施加 \(T - \lambda_k I\) 算子即可导出矛盾。
在 \(\mathbb C\) 中,\(f(t) = 0\) 有 \(n\) 个解。对于任意解 \(\lambda\),称其在 \(n\) 个解中出现的次数为其的代数重数。令 \(\lambda\) 的特征空间为 \(E_{\lambda}\) 为 \(N(T - \lambda I)\),称 \(\dim(E_{\lambda})\) 为其的几何重数。
几何重数介于 \(1\) 和代数重数之间。证明:考虑取 \(E_{\lambda}\) 的一个有序基底,并扩展为一个 \(V\) 的基底,求特征多项式可以发现 \((\lambda - t)^{\dim(E_{\lambda})}\) 是 \(f(t)\) 的一个因式。
\(T\) 可对角化当且仅当其所有特征值的几何重数等于代数重数。
如果在 \(\mathbb R\) 上讨论这些问题,还需要考虑 \(f(t) = 0\) 的解不都是实数的情况。
若 \(T\) 可对角化,则 \(V\) 为 \(T\) 的所有特征空间的直和。
\(T\) - 不变子空间
定义无需多言。
设 \(W\) 是 \(V\) 的 \(T\) - 不变子空间,\(T_W\) 是把定义域缩减到 \(W\) 后的线性算子,则 \(T_W\) 的特征多项式 \(f_W\) 是 \(T\) 的特征多项式的因式。
证明:方法和证明几何重数介于 \(1\) 和代数重数之间的方法类似。取 \(W\) 的一个有序基底,并将其扩展为 \(V\) 的一个有序基底,则
其中 \(B_1\) 对应 \(W\) 的有序基底部分。则 \(\det(A - tI) = \det(B_1 - tI)\det(B_3 - tI)\)。
一个类似的结论:若 \(V = W_1 \oplus W_2 \cdots \oplus W_k\),其中 \(W_i\) 是 \(T\) - 不变子空间,记 \(f_i\) 为 \(T_{W_i}\) 的特征多项式,则 \(f = \prod f_i\)。对 \(k\) 归纳证明即可。
对于 \(x\),称 \(\text{span}(\{x, T(x), T^2(x), \cdots\})\) 为 \(x\) 生成的 \(T\) - 循环子空间。记其为 \(W\),若 \(W\) 为有限维,记 \(k = \dim(W)\),则 \(\{x, T(x), \cdots, T^{k-1}(x)\}\) 是 \(W\) 的一个基底。设 \(\sum_{i = 0} ^ {k - 1} a_i T^i(x) + T^k(x) = 0\),则 \(T_W\) 的特征多项式是 \((-1)^k(\sum_{i = 0} ^ {k - 1} a_i t^i + t^k)\)。这个考察一下 \([T]_{\beta}\) 然后对 \(k\) 归纳一下即可。
Cayley–Hamilton Theorem:\(f(T) = T_0\),其中 \(T_0(x) = 0\)。证明就是顺水推舟:对于 \(\forall x \in V\),考虑 \(x\) 生成的 \(T\) - 循环子空间 \(W\),则根据其特征多项式的形式能直接得出 \(f_W(T_W)(x) = 0\);又因为其是 \(V\) 的子空间,所以 \(f_W\) 是 \(f\) 的因式,故 \(f(T)(x) = 0\)。
Chapter 6 - Inner Product Spaces
大的要来了。
内积
域 \(F\) 上的线性空间 \(V\) 上的内积 \(\langle x, y \rangle\) 是满足以下条件的二元函数:
- \(\langle x + z, y \rangle = \langle x, y \rangle + \langle z, y \rangle\);
- \(\langle cx, y \rangle = c\langle x, y \rangle\);
- \(\langle x, y \rangle = \overline{\langle y, x \rangle}\);
- 若 \(x \ne 0\),则 \(\langle x, x \rangle > 0\)。
设 \(x = (a_1, a_2, \cdots, a_n)^t, y = (b_1, b_2, \cdots, b_n)^t\)。定义 \(\langle x, y \rangle = \sum_{i = 1} ^ n a_i\overline{b_i}\) 为 \(F^n\) 上的标准内积。
对于 \(m \times n\) 的矩阵 \(A\),定义 \(A^*\) 为一个 \(n \times m\) 的矩阵,满足 \((A^*)_{ij} = \overline{A_{ji}}\)。
带有特定内积运算的线性空间 \(V\) 称为内积空间。当 \(F = \mathbb C\) 时,\(V\) 称为复内积空间;当 \(F = \mathbb R\) 时,\(V\) 称为实内积空间。
若对于 \(\forall x\) 有 \(\langle x, y \rangle = \langle x, z \rangle\),则 \(y = z\)。
定义向量 \(x\) 的模长为 \(\sqrt{\langle x, x \rangle}\)。
柯西不等式:\(|\langle x, y \rangle| \le ||x|| \cdot ||y||\)。
证明:若 \(y = 0\) 则结论显然成立。否则考虑
令 \(c = \frac{\langle x, y \rangle}{\langle y, y \rangle}\),则不等式变为
即证。
三角不等式:\(||x + y|| \le |x| + |y|\)。可以拆开左侧然后通过柯西不等式证明。
正交
称 \(x, y\) 正交,当且仅当 \(\langle x, y \rangle = 0\)。
称 \(x\) 是单位向量,当且仅当 \(||x|| = 1\)。
称 \(V\) 的子集 \(S\) 是标准正交的,当且仅当其包含两两正交的单位向量。
定理:设 \(S = \{v_1, v_2, \cdots, v_k\}\) 是 \(V\) 的一个正交子集,\(x \in \text{span}(S)\)。则
证明:令 \(x = \sum_i a_i v_i\)。则
由此也可以得出,若 \(0 \not\in S\),则 \(S\) 是线性无关的。
证明:若 \(\sum_i a_i v_i = 0\),则对于 \(\forall p \in [1, k]\),有 \(\langle \sum_i a_i v_i, v_p \rangle = a_p ||v_p||^2 = 0\),故 \(a_p = 0\)。
定理:设 \(S = \{w_1, w_2, \cdots, w_n\}\) 是 \(V\) 的一个线性无关子集,我们可以通过如下方式得到正交子集 \(S' = \{v_1, v_2, \cdots, v_n\}\),使得 \(\text{span}(S') = \text{span}(S)\):对于 \(k = 1, 2, \cdots, n\),令
证明可以考虑直接对 \(k\) 归纳证明。
上面的过程被称为 Gram–Schmidt 过程。
于是,对于任意有限维内积空间 \(V\),我们总能找到一组标准正交基 \(\beta = \{v_1, v_2, \cdots, v_n\}\),则对于 \(\forall x \in V\),有
对于任意线性算子 \(T\),我们也能直接得到
对于 \(V\) 的标准正交子集 \(\beta = \{v_1, v_2, \cdots\}\) 和 \(x \in V\),称 \(v_i\) 为 \(\langle x, v_i \rangle\) 为 \(x\) 关于 \(\beta\) 的第 \(i\) 个傅里叶系数。
对于 \(V\) 的非空子集 \(S\),令 \(S^{\perp} = \{x \in V : \forall y \in S, \langle x, y \rangle = 0\}\)。显然 \(S^{\perp}\) 是 \(V\) 的子空间。
定理:令 \(W\) 是 \(V\) 的一个 有限维 子空间,\(y \in V\),则存在唯一的 \(u \in W\) 和 \(z \in W^{\perp}\),满足 \(y = u + z\)。令 \(\beta = \{v_1, v_2, \cdots, v_k\}\) 为 \(W\) 的一组标准正交基,则
证明:\(u \in W\) 和 \(z = y - u \in W^{\perp}\) 很显然,直接用内积证明即可。注意到 \(W \cap W^{\perp} = \{0\}\),于是假设 \(y = u + z = u' + z'\),则 \(u - u' \in W, z' - z \in W^{\perp}\),而 \(u - u' = z' - z\),故 \(u = u', z = z'\)。
从几何上理解,\(u\) 是 \(W\) 中距离 \(y\) 最近的点。可以通过对于 \(\forall x \in W\),有 \(||y - x||^2 = ||(u - x) + z||^2 = ||u - x||^2 + ||z||^2 \ge ||z||^2\) 来证明。
\(u\) 被称为 \(y\) 在 \(W\) 上的正交投影。
对于内积空间 \(V\) 和其 有限维 子空间 \(W\),有 \(V = W \oplus W^{\perp}\)。
伴随
定理:令 \(V\) 为 有限维 内积空间。任意 \(V \to F\) 的线性变换可以看作求与特殊向量的内积。形式化地,令 \(g : V \to F\),则存在 \(y \in V\),使得对于 \(\forall y \in V\) 有 \(g(x) = \langle x, y \rangle\)。
证明:令 \(\beta = \{v_1, v_2, \cdots, v_n\}\) 为 \(V\) 的一组标准正交基。直接令 \(y = \sum_i \overline{g(v_i)} v_i\) 即可,正确性应该是显然的。
同时,显然这样的 \(y\) 是唯一的。
定理:令 \(V\) 为 有限维 内积空间,\(T\) 为 \(V\) 上的线性算子。存在唯一的线性算子 \(T^*\),使得对于 \(\forall x, y \in V\) 有 \(\langle T(x), y \rangle = \langle x, T^*(y) \rangle\)。
证明:首先考虑固定 \(y\),令 \(g(x) = \langle T(x), y \rangle\)。根据上一个定理,存在 \(y' \in V\) 使得对于 \(\forall x \in V\) 有 \(g(x) = \langle x, y' \rangle\),令 \(T^*(x) = y'\) 即可。
接下来我们需要证明 \(T^*\) 是线性的。因为对 \(\forall x\) 有
所以 \(T^*(cy_1 + y_2) = cT^*(y_1) + T^*(y_2)\),因此 \(T^*\) 是线性的。因为对于每个 \(y\),\(T^*(y)\) 有唯一的取值,所以 \(T^*\) 是唯一的。
\(T^*\) 称为 \(T\) 的伴随算子。
定理:令 \(V\) 为 有限维 内积空间,\(T\) 为 \(V\) 上的线性算子,\(\beta = \{v_1, v_2, \cdots, v_n\}\) 为 \(V\) 的一组标准正交基。则 \([T^*]_{\beta} = [T]_{\beta}^*\)。
证明:\([T^*]_{\beta_{ij}} = \langle T^*(v_j), v_i \rangle = \overline{\langle v_i, T^*(v_j) \rangle} = \overline{\langle T(v_i), v_j \rangle} = \overline{[T]_{\beta_{ji}}}\)。
由此可见,\(T^{**} = T\)。
最小二乘法
平面上有 \(n\) 个点 \((t_1, y_1), (t_2, y_2), \cdots, (t_n, y_n)\),其中 \(t_i\) 两两不同。需要用一条直线 \(y = ct + d\) 拟合这 \(n\) 个点,使得误差最小。误差定义为 \(\sum_i (y_i - c t_i - d)^2\)。
做法:令
我们实际上要最小化 \(||y - Ax||^2\)。我们不妨考虑 \(A\) 是任意 \(m \times n\) 矩阵的情况,此时我们在 \(R(A)\) 中找离 \(y\) 最近的点,所以最优的 \(x\) 满足 \(y - Ax \perp R(A)\)。也就是 \(A^*(y - Ax) = 0\),可以理解为 \(x\) 与 \(A\) 的每一列与 \(y - Ax\) 的内积为 \(0\)。所以最优的 \(x\) 满足 \(A^*Ax = A^*y\)。
注意到对于 \(\forall x \ne 0\),有 \(A^*Ax = 0 \Leftrightarrow x^*A^*Ax = 0 \Leftrightarrow \langle Ax, Ax \rangle = 0 \Leftrightarrow Ax = 0\),显然 \(N(A^*A) = N(A)\),所以当 \(\text{rank}(A) = n\) 时,\(x = (A^*A)^{-1} A^* y\)。
书上证明 \(\text{rank}(A^*A) = \text{rank}(A)\) 的表述方式是首先注意到 \(\langle Ax, y \rangle _m = \langle x, A^*y \rangle _n\),然后说明 \(\langle A^*Ax, x \rangle _n = \langle Ax, Ax \rangle _m\),和上面方法的区别只是表述方式的不同。
线性方程组的最小解
同理,设一个特解为 \(u\),则解空间为 \(u + N(A)\)。最优解需要与 \(N(A)\) 垂直,因为 \(N(A)^{\perp} = R(A^*)\) 所以最优解为 \(R(A^*)\) 中的解。更具体地,\(AA^*x = b\) 有解 \(x = x'\),最优解即 \(x = A^* x'\)。显然解存在且唯一。
正规算子
定理:若线性算子 \(T\) 有特征值 \(\lambda\),则 \(T^*\) 有特征值 \(\overline{\lambda}\)。
证明:若存在 \(x \ne 0\) 使得 \(T(x) = \lambda x\),则对于 \(\forall y \in V\),有
由此可见,\(x \perp R(T^* - \overline {\lambda} I)\),即 \(N(T^* - \overline {\lambda} I) \ne \{0\}\),故 \(\overline {\lambda}\) 是 \(T^*\) 的特征值。
舒尔定理:令 \(V\) 为 有限维 内积空间,\(T\) 为 \(V\) 上的线性算子,若 \(T\) 的特征多项式可分解,则存在标准正交基 \(\beta\) 使得 \([T]_{\beta}\) 是上三角矩阵。
证明:取一组使得 \([T]_{\beta}\) 是对角矩阵的基底,然后对其执行 Gram–Schmidt 过程即可。
若 \(TT^* = T^*T\),则称 \(T\) 为正规算子。
下面介绍一些正规算子的基本性质:
定理:若 \(T\) 是正规算子,则对于 \(\forall x\) 有 \(||T(x)|| = ||T^*(x)||\)。
证明:
定理:若 \(T\) 是正规算子,则对于 \(\forall c \in F\),\(T - cI\) 也是正规算子。
\(\quad\)
\(\quad\)
\(\quad\)
\(\quad\)
\(\quad\)
\(\quad\)
\(\quad\)
\(\quad\)
\(\quad\)
\(\quad\)
\(\quad\)
\(\quad\)
\(\quad\)
\(\quad\)
\(\quad\)