矩阵论复习笔记
1. 线性空间与线性变换
(1)线性空间的定义:
以\(\alpha, \beta, \gamma,...\)为元素的非空集合\(V\),数域\(F\),定义两种运算:加法\(\forall \alpha , \beta \in V, \; \alpha + \beta \in V\);数乘\(\forall k \in F, \alpha \in V, k \alpha \in V\)。满足8条:加法交换律、加法结合律、数乘结合律、两个分配律,0元存在,1元存在,负元存在。称 \(V\)为数域\(F\)上的线性空间。
(2)证明一组向量是线性空间的基,两步走:
- 证明这组向量线性无关;
- 证明线性空间任意向量可由这组向量表示。
(3)如果\(\{E_{ij}, i=1,2,...,m;j=1,2,...,n\}\)是矩阵空间\(R^{m \times n}\)的一组基,则\(\dim R^{m \times n} = m \times n\)。
注:这里有前提条件,实际上\(\dim R^{m \times n}\)并不是总等于\(m \times n\),如2015年填空题第2题。
(4)\(\alpha_1, \alpha_2, ..., \alpha_n\)是线性空间\(V_n(F)\)的一组基,对于\(\forall \beta \in V\),
其中\(X\)称为向量\(\beta\)在基\((\alpha_1 \; \alpha_2 \; ... \; \alpha_n)\)下对应的坐标。
\(V_n(F)\)中向量组\(\{\beta_1 \; \beta_2 \; ... \; \beta_m\}\)线性相关的充要条件是坐标向量组\(\{X_1,X_2,...,X_m\}\)是线性相关组。
(5)设\((\alpha_1 \; \alpha_2 \; ... \; \alpha_n)\)和\((\beta_1 \; \beta_2 \; ... \; \beta_n)\)是\(n\)维线性空间\(V_n(F)\)中的两组基,则有\(C\in F^{m \times n}\)
其中\(C\)称为从基设\((\alpha_1 \; \alpha_2 \; ... \; \alpha_n)\)到\((\beta_1 \; \beta_2 \; ... \; \beta_n)\)的过渡矩阵。
重要推论:如果向量\(\alpha \in V_n(F)\),\(\alpha\)在两组基下对应坐标分别是\(X\)和\(Y\),则有:
显然有:\(\color{red}{X = CY}\)。
(6)设\(W\)是线性空间\(V_n(F)\)的非空子集合,则\(W\)是\(V_n(F)\)的子空间的充要条件是:
- 若\(\alpha, \beta \in W\),则\(\alpha + \beta \in W\)
- 若\(\alpha \in W, \; k \in F\),则\(k \alpha \in W\)
也就是说只需要验证对加法和数乘封闭即可。
(7)设\(W_1, \; W_2\)是线性空间\(V\)的子空间,则:
- \(W_1\)与\(W_2\)的交空间为:\(W_1 \cap W_2 = \{ \alpha | \alpha \in W_1 \; and \; \alpha \in W_2 \}\)
- \(W_1\)与\(W_2\)的和空间为:\(W_1 + W_2 = \{ \alpha | \alpha = \alpha_1 + \alpha_2, \; \alpha_1 \in W_1, \; \alpha_2 \in W_2 \}\)
两个重要的维数公式
- \(\dim (W_1 \cap W_2) \leqslant \dim W_i \leqslant \dim(W_1 + W_2) \leqslant \dim V\)
- \(\dim W_1 + \dim W_2 = \dim (W_1 + W_2) + \dim(W_1 \cap W_2)\)
直和子空间:如果\(W = W_1 + W_2\),并且\(W_1 \cap W_2 = \{0\}\),那么称\(W\)是\(W_1\)与\(W_2\)的直和子空间,表示为\(W = W_1 \oplus W_2\)。
直和补子空间:对\(n\)维空间\(V\)的任何子空间\(W\),设\(\alpha_1, ...,\alpha_r\)为\(W\)的基,$r < n \(,把它们扩充为\)V\(的基**\){\alpha_1, ...,\alpha_r; \beta_{r+1}, ..., \beta_n}, \quad U = L{\beta_{r+1}, ..., \beta_n }\(,**有\)V = W \oplus U\(成立,则称\)U\(是\)W$的直和补子空间。
(8)若\((\alpha_1 \; \alpha_2 \; ... \; \alpha_n)\)是线性空间\(V_n(F)\)的一组基,则
对一个矩阵\(A \in F^{m \times n}\),可以得到两个与\(A\)相关的子空间:
其中\(N(A)\)称为矩阵\(A\)的零空间,\(R(A)\)称为矩阵\(A\)的列空间。
(9)内积:
- 欧氏空间的内积:\((\alpha, \beta) = \alpha^T \beta ; \quad (A, B) = tr(AB^T)\)
- 酉空间的内积:\((\alpha, \beta) = \beta^H \alpha ; \quad (A, B) = tr(B^HA)\)
柯西不等式:\(|(\alpha, \beta)|^2 \leqslant (\alpha, \alpha)(\beta, \beta)\)
正交补子空间:设\(U\)为内积空间\(V_n(F)\)的一个子空间,定义\(V_n(F)\)上的一个子集\(U^{\perp} = \{\alpha \;| \;\alpha \in V_n(F), \; \forall \beta \in U, \; (\alpha, \beta)=0 \}\)称为\(U\)的正交补子空间,有\(V_n(F) = U \oplus U^{\perp}\)。
(10)设\(T\)是线性空间\(V_n(F)\)上的线性变换,则满足\(T(k_1 \alpha_1 + k_2 \alpha_2) = k_1 T(\alpha_1) + k_2 T(\alpha_2)\),则有:
像空间:\(R(T) = \{\beta | \; \exists \alpha \in V_n(F), s.t. \; \beta = T(\alpha)\}\)是\(V_n(F)\)上的子空间,称为\(T\)的像空间;\(\dim R(T)\)称为\(T\)的秩。
零空间:\(N(T) = \{\alpha |\; T(\alpha) = 0\}\)是\(V_n(F)\)上的子空间,称为\(T\)的零空间;\(\dim N(T)\)称为\(T\)的零度。
(11)设\(T\)为\(V_n(F)\)上的线性变换,\(\{\alpha_1, \alpha_2, ..., \alpha_n\}\)是\(V_n(F)\)的基,若存在\(n\)阶方阵\(A\),有:
称\(A\)为\(T\)在基\(\{\alpha_1, \alpha_2, ..., \alpha_n\}\)下的矩阵。
-
设\(\alpha\)与\(T(\alpha)\)在基\(\{\alpha_1, \alpha_2, ... , \alpha_n\}\)下的坐标分别是\(X\)与\(Y\),则有:\({\color {red}{ Y = AX}}\)。
-
设\(\{\alpha_1, \alpha_2, ... , \alpha_n\}\)和\(\{\beta_1, \beta_2, ... , \beta_n\}\)是\(V_n(F)\)的两组基,且有\((\beta_1 \; \beta_2 \; ... \; \beta_n) = (\alpha_1 \; \alpha_2 \; ... \; \alpha_n)C\);\(T\)在两组基下的变换矩阵分别是\(A\)与\(B\),则\({\color{red} {B=C^{-1}AC}}\)。
(12)设\(T\)是线性空间\(V_n(F)\)上的线性变换,\(W\)是\(V_n(F)\)的子空间,如果\(\forall \alpha \in W, \; T(\alpha) \in W\),即值域\(T(W) \subseteq W\),则称\(W\)是\(T\)的不变子空间。
重要例题
设\(T\)是欧式空间\(R^3\)上的线性变换,对\(R^3\)中单位矢量\(u\),\(\forall x \in R^3\),\(T(x) = x - (1-k)(x,u)u\),问:T的不变子空间的直和分解以及相应的矩阵分解。
答:对向量\(u\)有
\[T(u) = u - (1-k)(u,u)u= u - (1-k)u = ku \]所以以\(u\)为基向量的空间是不变子空间,表示为\(L\{u\}\);
同理,对于\(u\)的正交补子空间\(u^{\perp}\),对于任意向量\(X \in u^{\perp}\),有\[T(X) = X - (1-k)(X,u)u = X-0=X \]于是另一个不变子空间为\(u^{\perp}\);即\(R^3 = L\{u\} \oplus u^{\perp}\)。
显然有\(L\{u\}\)是一维空间,特征值\(k\)对应的特征向量是\(u_1 = u\);那么\(u^{\perp}\)就是二维空间,特征值\(1\)对应两个线性无关的特征向量,可以找到两个单位正交特征向量\(u_2, u_3\),所以相应的矩阵分解为\(\begin{bmatrix}k & & \\ & 1 & \\ & & 1\end{bmatrix}\) ,对应的特征向量组 \(\{u_1,u_2,u_3\}\)为标准正交基。
(13)正交变换(酉变换):线性变换\(T\)不改变向量内积,即\((T(\alpha), T(\beta)) = (\alpha, \beta)\)。
- 正交变换\(T\)关于任一标准正交基的矩阵\(C\)满足\(C^TC = CC^T=I\);酉变换关于任一标准正交基的矩阵\(U\)满足\(U^HU=UU^H=I\)。
- 正交矩阵的行列式为\(\pm 1\);酉矩阵的行列式的模长为\(1\)。
(14)常见的正交变换
-
\(R^2\)上绕原点逆时针旋转\(\theta\)角的线性变换\(T_{\theta}\)称为正交变换,在标准正交基下对应的变换矩阵\(\begin{bmatrix} \cos \theta & - \sin \theta \\ \sin \theta & \cos \theta \end{bmatrix}\)是正交矩阵。
-
空间\(R^3\)上绕过原点的直线\(l\)旋转\(\theta\)角的变化\(T_{L_{\theta}}\)为正交变换,在标准正交基下对应的变换矩阵\(\begin{bmatrix}1 & & \\ & \cos \theta & -\sin \theta \\ & \sin \theta & \cos \theta \end{bmatrix}\)是正交矩阵。
2. Jordan标准形
(1)若有\(T(\xi) = \lambda \xi\),称\(\lambda\)为\(T\)的特征值,\(\xi\)为\(T\)的特征向量。如果\(A\)是线性变换\(T\)对应的矩阵,那么,\(\lambda\)和\(\xi\)也是\(A\)的特征值和特征向量。
(2)设\(\lambda_1, \lambda_2, ..., \lambda_s\)是\(V_n(F)\)上线性变换\(T\)的\(s\)个互异特征值,\(V_{\lambda_i}\)是\(\lambda_i\)的特征子空间,其中\(i=1,2,...,s\),则:
- \(V_{\lambda_i}\)是\(T\)的不变子空间;
- \(\lambda_i \neq \lambda_j\)时,\(V_{\lambda_i} \cap V_{\lambda_j} = {0}\);
- 若\(\lambda_i\)是\(k_i\)重(代数重数)的,\(\dim V_{\lambda_i}\)是几何重数,则有\(\dim V_{\lambda_i} \leqslant k_i\)。
(3)线性变换\(T\)有对角矩阵表示的充分必要条件是 \(T\)有\(n\)个线性无关的特征向量。
幂等矩阵:\(A^2 = A\),\(A\)相似于对角矩阵\(\begin{bmatrix} I_r& \\ & 0\end{bmatrix}\),其中\(r\)为矩阵\(A\)的秩。
乘方矩阵:\(A^2 = I\),\(A\)相似于对角阵\(\begin{bmatrix}I_s & \\ & I_t\end{bmatrix}\),其中\(s+t=n\)。
(4)关于秩的不等式:
(5)形如\(J(\lambda) = \begin{bmatrix}\lambda & 1 & & \\ & \lambda & 1 & \\ & & ... & 1\\ & & & \lambda\end{bmatrix}\),称为Jordan块。Jordan块呈上三角,主对角线是它的全部特征值,特点是主对角线上元素相等,紧邻上方元素\(a_{i,i+1} = 1\),其余元素为0。
(6)每个\(n\)阶方阵\(A\)都相似于一个Jordan矩阵,即存在可逆矩阵\(P\),有:
其中\(J_A\)称为Jordan标准形。
(7)Jordan标准形的求法:
-
求矩阵\(A\)的特征多项式\(|\lambda I-A| = (\lambda - \lambda_1)^{k_1}(\lambda-\lambda_2)^{k_2}...(\lambda - \lambda_s)^{k_s}\),其中\(k_i\)是特征值\(\lambda_i\)的代数重数,决定了对角线上特征值\(\lambda_i\)的个数;
-
对\(\lambda_i\),由\((A-\lambda_i I)X=0\),求\(A\)的线性无关的特征向量\(\alpha_1,\alpha_2, ...,\alpha_{t_i}\),其中\(t_i\)是特征值\(\lambda_i\)的几何重数,决定了Jordan块的个数;
- 如果\(k_i = t_i\),即代数重数等于几何重数,说明\(\lambda_i\)对应的Jordan块是对角阵;
- 如果\(t_i < k_i\),就选择合适的特征向量\(\alpha_j\),利用\({\color{red} {|A-\lambda_i I| = \alpha_j}}\)求Jordan链,确定每一个小Jordan块的阶数。
-
将所有特征值\(\lambda_i\)对应的Jordan块组合起来,形成Jordan矩阵\(J_A\)。
(8)矩阵多项式可以表示为$g(A) = a_m A^m + a_{m-1}A^{m-1}+...+a_1A +a_0 I \(,由于有\)A = P J_AP^{-1}$,所以有:
而对于\(g(J(\lambda))\)则有:
对于常用的幂指数形式有:
(9)使\(g(A)=0\)的多项式\(g(\lambda)\)称为\(A\)的化零多项式,特征多项式必是矩阵\(A\)的化零多项式。
注:化零多项式的根一定包含了所有的特征值,但不能说化零多项式的根一定是特征值。
(10)对于最小多项式\(m_T(\lambda)\)
- \(m_T(\lambda)\)最高项系数为
1
; - \(m_T(\lambda)\)是\(T\)的一个化零多项式;
- \(m_T(\lambda)\)是化零多项式中次数最低的那一个。
最小多项式\(m_T(\lambda)\)的根一定包含了所有的特征值\(\lambda_i\),子式\((\lambda-\lambda_i)^{r_i}\)的幂\(r_i\)等于Jordan标准形中关于特征值\(\lambda_i\)的Jordan块中的最高阶数。
比如矩阵\(A\)有一个代数重数为
3
的特征值2
,该特征值对应两个Jordan块,分别是
\(\begin{bmatrix}2 & 1 \\ & 2 \end{bmatrix}\)以及\([2]\), 说明其中其最高阶数为2,那么在最小多项式中对应的子式为\((\lambda -2)^2\)。
3. 矩阵的分解
(1)等价标准形
对于\(A \in C^{m \times n}\),存在可逆矩阵\(P \in C^{m \times m}, Q \in C^{n \times n}\),使得
其中\(r\)是矩阵\(A\)的秩。
(2)相似标准形
存在可逆矩阵\(P \in C^{ n \times n}\),有
(3)LU分解
定义:\(L\)是下三角矩阵,\(U\)是上三角矩阵,\(A=LU\)。
求法:
- 对于\((A \;|\; I_n)\),只用第\(i\)行乘数\(k\)加到第\(j\)行(\(i < j\))型初等变换将\(A\)化为上三角形\(U\),可以得到\({\color{red} (U \; |\; P)}\);
- 可知\(PA=U\),于是有\(L=P^{-1}\),则\(A=LU\)。
(4)LDV分解
定义:\(L, V\)分别是对角线元素为1的下三角矩阵和上三角矩阵,\(D\)为对角矩阵,\(A=LDV\)。
求法:
方法一:
- 由LU分解得到\(A = LU\);
- 通过每行除以对应的对角线上元素的值,将\(U\)的对角线元素化为1,得到\(U=DV\);
- 有\(A=LDV\)。
方法二:
-
取矩阵\(A\)对角线第一个元素,得到矩阵\(A_1=[a_{11}]\),则有\(A_1 = L_1D_1V_1 = [1][a_{11}][1]\);
-
取包含对角线前两个元素的二阶矩阵\(A_2 = \begin{bmatrix}A_1 & \alpha\\ \beta & a_{22}\end{bmatrix}\),则有矩阵\(A_2 = L_2 D_2 V_2\),其中\(L_2 = \begin{bmatrix}L_1 & 0\\ x & 1\end{bmatrix}\),\(D_2 = \begin{bmatrix}D_1 & 0\\ 0 & d_2\end{bmatrix}\),\(V_2 = \begin{bmatrix}V_1 & y\\ 0 & 1\end{bmatrix}\),求得未知量\(x, d_2, y\);
-
以此类推,最终得到\(A = L_n D_n V_n\)。
(5)满秩分解
定义:对于\(rank(A)=r\)的矩阵\(A\),若存在秩为\(r\)的矩阵\(B \in F^{m \times r}, \; C \in F^{r \times n}\),有\(A=BC\),称为矩阵\(A\)的满秩分解。
求法:方法较多,一般只用最简单的第3种。
- 用行初等变换把\(A\)化为Hermite标准形;
- 依Hermite标准形中向量\(e_i\)所在的列的位置第\(j_i\)列,相应地取出\(A\)的第\(j_i\)列\(a_{ji}\),得到 \(A\)的列向量极大无关组\(\{a_{j_1}, a_{j_2}, ..., a_{j_r}\}\),$B =(a_{j_1}, a_{j_2}, ..., a_{j_r}) $;
- \(A\)的Hermite矩阵中的非零行构成矩阵\(C\),得到满秩分解\(A=BC\)。
举个例子:
求矩阵\(A=\begin{bmatrix}1 & 1 & 2\\ 0 & 2 & 2\\ 1 & 0 & 1\end{bmatrix}\)的满秩分解。
答: 用行初等变换化\(A\)为Hermite标准形:
可知\(rank(A)=2\),\(A\)的前两列线性无关,取出构成\(B\);取出\(A\)的Hermite标准形的前两行作为\(C\),有:
(6)谱分解
定义:矩阵\(A\)互异的特征值\(\{\lambda_1, \lambda_2, ..., \lambda_s\}\)称为矩阵\(A\)的谱。可相似对角化是可以谱分解的充要条件。
求法:
- 通过求特征值和特征向量得到\(A = P\begin{bmatrix}\lambda_1 & & & & & & & & & \\ & ... & & & & & & & & \\ & & \lambda_1 & & & & & & & \\ & & & \lambda_2& & & & & & \\ & & & & ... & & & & & \\ & & & & & \lambda_2 & & & & \\ & & & & & & ... & & & \\ & & & & & & & \lambda_s & & \\ & & & & & & & & ... & \\ & & & & & & & & & \lambda_s\end{bmatrix} P^{-1}\);
- 对角阵\(\Lambda = \lambda_1 \begin{bmatrix}I_{r_1} & & & \\ & 0 & & \\ & & ... & \\ & & & 0\end{bmatrix} + \lambda_2\begin{bmatrix}0 & & & \\ & I_{r_2} & & \\ & & 0 & \\ & & & 0\end{bmatrix} + ... + \lambda_s\begin{bmatrix}0 & & & \\ & 0 & & \\ & & 0 & \\ & & & I_{r_s}\end{bmatrix}\),令\(Q_i = \begin{bmatrix}0 & & & \\ &... & & \\ & & I_{r_i} & \\ & & & ...\end{bmatrix}\);
- 得到\(A = \sum_{i=1}^s =\lambda_i P_i\),其中\(P_i = P Q_i P^{-1}\)。
(7)Schur分解
定义:对可逆矩阵\(A\),存在酉矩阵\(U\)和主对角线上元素都为正的上三角矩阵\(R\),使\(A=UR\)。
求法:
- 取矩阵\(A = (A_1, A_2, ..., A_n)\)的列向量,进行施密特正交化,得到\(u_1,u_2, ...,u_n\),有\(U=(u_1,u_2,...,u_n)\);
- 再由\(R = U^H A\)得到\(R\),于是\(A=UR\)。
(8)几种特殊矩阵:
- 正规矩阵:\(A^HA = AA^H\) (正规矩阵酉相似于对角阵)
- 酉矩阵:\(A^HA = AA^H=I\)
- Hermite矩阵:\(A^H = A\)
(9)奇异值分解(SVD分解)
奇异值:对\(rank(A)=r\)的矩阵\(A\),矩阵\(A^HA\)的非零特征值有\(\lambda_1 \geqslant \lambda_2 \geqslant ... \geqslant \lambda_r >0\),则称正数\(\sigma_i = \sqrt{\lambda_i}\)为矩阵\(A\)的奇异值。
定义:对\(rank(A)=r\)的矩阵\(A \in C^{m \times n}\),奇异值有\(\sigma_1 \geqslant \sigma_2 \geqslant ... \geqslant \sigma_r > 0\),则存在酉矩阵\(U \in C^{m \times m}, \; V \in C^{n \times n}\),分块矩阵\(\Sigma = \begin{bmatrix}\Delta & 0\\ 0 & 0\end{bmatrix}\),有\(A = U \Sigma V^H\),其中\(\Delta = \begin{bmatrix}\sigma_1 & & & \\ & \sigma_2 & & \\ & & ... & \\ & & & \sigma_r\end{bmatrix}\)。
求解:
- 由特征多项式\(|\lambda I - A^HA| = 0\)求得特征值\(\lambda_1 \geqslant \lambda_2 \geqslant .. \geqslant \lambda_n\),(务必按照从大到小排列),以及每个特征值对应的特征向量\(\alpha_1, \alpha_2, ..., \alpha_n\);
- 对特征向量进行施密特正交化和单位化(一般只需要单位化),得到单位正交向量组\(v_1, v_2, ..,v_n\),则\(V=(v_1, v_2, ...,v_n)\);
- 对于非零特征值\(\lambda_1, ..., \lambda_r\)对应奇异值\(\sigma_1, ... , \sigma_r\),于是有\({\color{red} {u_i = \frac{1}{\sigma_i}Av_i}}\),这样得到了\(r\)个列向量,剩余的设为\(\beta\),通过正交的特性\(u_i^T \beta = 0\)即可求得,
- 于是得到\(A=U \Sigma V^H\)
(10)极分解
定义:对于\(rank(A)=r\)的矩阵\(A \in C^{n \times n}\),可以被分解为\(A=PQ\),其中\(P\)为半正定矩阵,\(Q\)为酉矩阵。
求法:
- 对\(A\)进行奇异值分解,得到\(A=U \Sigma V^H\);
- 可以得到\(A = (U \Sigma U^H)(UV^H)\),于是\(P=U \Sigma U^H, \; Q=UV^H\),\(A=PQ\)。
4. 矩阵的广义逆
(1)设\(A \in C^{m \times n}, B \in C^{n \times m}\),若有\(BA=I_n\),则称\(B\)是\(A\)的一个左逆。
等价条件:
- \(A\)的零空间\(N(A)={0}\)
- \(m \geqslant n, \; rank(A)= n\),即\(A\)是列满秩的
- \(A^H A\)可逆
(2)设\(A \in C^{m \times n}, C \in C^{n \times m}\),有\(AC = I_m\),则称\(C\)是\(A\)的一个右逆。
等价条件:
- \(A\)的列空间\(R(A)=C^m\)
- \(m \leqslant n, \; rank(A)=m\),即\(A\)是行满秩的
- \(AA^H\)可逆
(3)对于\(A \in C^{m \times n}, \; G \in C^{n \times m}\),有\(AGA=A\),称\(G\)是\(A\)的一个减号广义逆。
求法:
- 对\(rank(A)=r\)的矩阵\(A\),有矩阵\(\begin{bmatrix}A & I_m\\ I_n & 0 \end{bmatrix}\)进行初等变换,对\(A\)行变换时\(I_m\)保持同步,对\(A\)列变换时,\(I_n\)保持同步,将\(A\)化为最简形,得到\(\begin{bmatrix} I_r& 0 & P \\ 0 & 0 & \\ \\ Q & & 0 & \end{bmatrix}\);
- 有\(G = Q\begin{bmatrix}I_r & U\\ V & W\end{bmatrix}P\),其中\(U,V,W\)是满足固定阶次的任意矩阵。
(4)加号广义逆(M-P逆)
定义:对于矩阵\(A \in C^{m \times n}, \; G \in C^{n \times m}\),满足4条
- \(AGA=A\)
- \(GAG=G\)
- \((AG)^H = AG\)
- \((GA)^H=GA\)
称\(G\)为\(A\)的M-P逆。
求法:
方法一:
- 对矩阵\(A\)进行满秩分解,得到\(A=BC\);
- 则\(\color{red}{A^+ = C^H(CC^H)^{-1}(B^HB)^{-1}B^H}\),也就是等于
C的右逆 x B的左逆
。
方法二:
- 对矩阵\(A\)进行奇异值分解,得到\(A = U \begin{bmatrix}\Delta &0 \\ 0 & 0\end{bmatrix}V^H\);
- 则\(\color{red}{A^+ = V \begin{bmatrix}\Delta^{-1} & 0\\ 0 & 0\end{bmatrix}U^H}\)。
性质
- \(rank(A) = rank(A^+)\)
- \(rank(A^+A) = rank(AA^+)=rank(A)\)
(5)投影变换
定义:\(C^n = L \oplus M, \quad x=y+z, \quad y \in L, z \in M\),投影变换\(\sigma\)就是把\(C^n\)映射成子空间\(L\),称\(\sigma\)是从\(C^n\)沿子空间\(M\)到子空间\(L\)的投影变换,在一组基下对应的矩阵称为投影矩阵,子空间\(L\)称为投影子空间。显然有,子空间\(L\)就是\(\sigma\)的像空间\(R(\sigma)\),\(M\)就是\(\sigma\)的核空间\(N(\sigma)\),于是\(C^n = R(\sigma) \oplus N(\sigma)\)。
\(\sigma\)是投影变换的充要条件是\(\sigma\)关于某组基下的矩阵\(A\)是幂等矩阵,即\(A^2=A\)。
求法
- 找出像空间\(L\)的一组基\(y_1,y_2,...,y_r\),得到矩阵\(B = (y_1 \; y_2 \; ... \; y_r)\);找出\(M\)的一组基\(z_{r+1}, ...., z_n\),得到矩阵\(C=(z_{r+1} \; ... \; z_n)\);
- 于是有投影矩阵\(\color{red}{A = (B | 0)(B|C)^{-1}}\)。
(6)正交投影变换
定义:若\(C^n = R(\sigma) \oplus N(\sigma)\),\(R(\sigma)\)的正交补空间是\(R(\sigma)^{\perp} = N(\sigma)\),称\(\sigma\)是正交投影变换,其在标准正交基下对应的矩阵称为正交投影矩阵。
\(\sigma\)是正交投影变换的充要条件是\(A\)是幂等Hermite矩阵,即\(A^2=A, \;A^H=A\)。
求法
(7)最佳最小二乘解
\(A \in C^{m \times n}, \; b \in C^m\),则\({\color{red} {x_0=A^+b}}\)是线性方程组\(Ax=b\)的最佳最小二乘解。
\(A \in C^{m \times n}, \; B \in C^{m \times k}\),则\({\color{red}{X_0 = A^+B}}\)是\(AX=B\)的最佳最小二乘解。
5. 矩阵分析
(1)向量范数满足正定性、齐次性和三角不等式,定义了范数的内积空间称为赋范空间。
(2)重要的向量范数:
对于复向量\(x = (x_1 \;\; x_2 \;\; ... \;\; x_n)\),有:
- 2-范数:${\color{red}{|x|| = \sqrt{|x_1|^2 + |x_2|^2 + ... + |x_n|^2}}} $
- 1-范数:\({\color{red}{||x||_1 = |x_1| + |x_2| + ... + |x_n|}}\)
- ∞范数:\({\color{red}{||x||_{\infty} = \underset{i}{\max} |x_i|}}\)
有限维线性空间的任意两种向量范数都是等价的。
(3)矩阵范数满足正定性、齐次性、三角不等式以及相容性。
(4)重要的矩阵范数和诱导范数
- F范数:\({\color{red}{||A||_F = [tr(A^HA)]^{\frac{1}{2}}}}\)
- 列和范数: \({\color{red}{||A||_1 = \underset{j}{\max}(\sum_{i=1}^n |a_{ij}|)}}\),即每一列各元素模相加其中的最大值
- 谱范数:\({\color{red}{||A||_2 = \sqrt{\lambda_1}}}\),其中\(\lambda_1\)是\(A^HA\)的最大特征值
- 行和范数:\({\color{red}{||A||_{\infty} = \underset{i}{\max}(\sum_{j=1}^n |a_{ij}|)}}\),即每一行各元素模相加其中的最大值
(5)向量收敛和矩阵收敛必须其中的每一个元素都收敛。
向量按分量收敛的充要条件是它按任意一个向量范数收敛。
当\(k \rightarrow \infty\)时,\(||A^{(k)}-A|| \rightarrow 0\),称矩阵序列按矩阵范数收敛于\(A\)
(6)谱半径
定义:\(\lambda_1, \lambda_2, ..., \lambda_n\)是矩阵\(A \in C^{n \times n}\)的全部特征值,称\({\color{red}{\rho(A)=\underset{i}{\max}|\lambda_i|}}\)为\(A\)的谱半径。
\(A^k \rightarrow 0(k \rightarrow \infty)\)的充要条件是\(\rho(A) < 1\)。
\(A\)的谱半径是\(A\)的任意一种矩阵范数的下确界。
(7)矩阵幂级数
若复变量\(z\)的幂级数\(\sum_{k=0}^{\infty}a_kz^k\)的收敛半径为\(R\),而方阵\(A \in C^{n \times n}\)的谱半径为\(\rho(A)\),则
- 当\({\color{red} {\rho(A) < R}}\)时,矩阵幂级数\(\sum_{k=0}^{\infty}a_kA^k\)收敛;
- 当\({\color{red} {\rho(A) > R}}\)时,矩阵幂级数\(\sum_{k=0}^{\infty}a_k A^k\)发散
当求解\(A\)的特征值比较困难时,由于\(A\)的每个范数都是谱半径\(\rho(A)\)的上界,只需要找到一种特殊的矩阵范数\(||A||\),使得\(||A|| < R\),就能说明矩阵幂级数收敛。(优先考虑行和、列和范数)
(8)常用的幂级数
收敛域是整个复平面的幂级数
收敛域为复平面\(|z| < 1\)的幂级数
(9)矩阵函数的两种求法
方法一:Jordan标准形法
- 求矩阵\(A\)的Jordan标准形\(J_A\),得到\({\color{red} {A = PJ_AP^{-1}}}\)
- 设解析函数为\(f(z)\),则对每一个Jordan块有\(f(J_i)= \begin{bmatrix}f(\lambda_i) & \frac{f'(\lambda_i)}{1!} & \frac{f''(\lambda_i)}{2!} & ... \\ & f(\lambda_i) & \frac{f'(\lambda_i)}{1!} & ...\\ & & ... & \\ & & & f(\lambda_i)\end{bmatrix}\),得到\(f(J_A)\)
- 最后得到\(f(A) = Pf(J_A)P^{-1}\)
这种方法的难点在于需要求Jordan链,过程中可以会遇到麻烦。如果不同特征值个数较多,建议使用第一种;而如果特征值比较单一,并且 代数重数 - 几何重数 > 2,建议使用第二种。
方法二:最小多项式法
-
先计算\(A\)的Jordan标准形,由此得到最小多项式\(m_A(\lambda)=(\lambda -\lambda_1)^{n_1}(\lambda-\lambda_2)^{n_2}...(\lambda-\lambda_s)^{n_s}\),其中幂次和有\(\sum_{i=1}^s n_i =m\);
-
得到\(g(\lambda)=c_0+c_1\lambda+...+c_{m-1}\lambda^{m-1}\),并令\(g^{(j)}(\lambda_i)=f^{(j)}(\lambda_i)\),解得系数\(c_0,c_1,...,c_{m-1}\);
-
最后得到\(f(A) = c_0I + c_1A+...+c_{m-1}A^{m-1}\)
当不同特征值的个数比较多或者最小多项式幂次较高时,计算起来比较复杂,建议使用第一种。
(10)两个知识点:
重要的导数
- \(\color{red}{\frac{d A^{-1}(t)}{dt} = - A^{-1}(t) \big( \frac{d}{dt}A(t)\big)A^{-1}(t)}\)
矩阵指数函数的行列式
- \(|e^A| = e^{trA}\)
(11)矩阵函数应用
一阶常系数齐次微分方程组: $$\begin{cases}\dot{x}(t) = Ax(t)\x(t_0) = C_{n \times 1}\end{cases}$$
解为:\({\color{red}{x(t) = e^{A(t-t_0)}x(t_0)}}\)
一阶线性常系数非齐次线性方程组:$$\begin{cases}\dot{x}(t) = Ax(t) + f(t)\x(t_0) = C\end{cases}$$
解为:\({\color{red} {x(t) = e^{A(t-t_0)}x(t_0) + \int_{t_0}^t e^{A(t-\tau)}f(\tau)d \tau}}\)
6. K积
(1)对于矩阵\(A=(a_{ij}) \in C^{m \times n}, \;B=(b_{ij}) \in C^{s \times t}\),则K积为:
K积不具有交换律,即\(A \otimes B \neq B \otimes A\)
(2)重要性质
- \(I \otimes I = I\)
- \((A \otimes B)(C \otimes D) = (AC) \otimes (BD)\)
- \((A \otimes B)^k = A^k \otimes B^k\)
- \((A \otimes B) = (I_m \otimes B)(A \otimes I_n)\)
- \((A \otimes B)^{-1} = A^{-1} \otimes B^{-1}\)
- \(|A \otimes B| = |B \otimes A| = |A|^n|B|^m\) (这里的
n
表示B
的阶数,m
表示A
的阶数) - \(rank(A \otimes B) = rank(A)rank(B)\)
(3)K和:设\(A \in F^{m \times m}, \;B \in F^{n \times n}\),\(A \oplus B = A \otimes I_n + I_m \otimes B\)
(4)若\(A\)的特征值是\(\lambda_i\),相应的特征向量是\(x_i\);\(B\)的特征值是\(\mu_i\),相应的特征向量为\(y_i\);则:
- \(A \otimes B\)的特征值是\(\color{red}{\lambda_i \mu_i}\),对应的特征向量是\(\color{red}{x_i \otimes y_i}\)
- \(A \oplus B\)的特征值是\(\color{red}{\lambda_i + \mu_i}\),对应的特征向量是\(\color{red}{x_i \otimes y_i}\)
(5)设\(f(z)\)是解析函数,\(A \in F^{n \times n}\),\(f(A)\)存在,则
- \(f(I_m \otimes A) = I_m \otimes f(A)\)
- \(f(A \otimes I_m) = f(A) \otimes I_m\)
(6)设矩阵\(A \in F^{m \times n}, \quad A=(A_1, A_2,...,A_n)\),则\(Vec(A) = \begin{bmatrix}A_1\\ A_2\\ ...\\ A_n\end{bmatrix} \in F^{nm}\)
\({\color{red}{Vec(ABC) = (C^T \otimes A)Vec(B)}}\)
- \(Vec(AX) = (I_s \otimes A)Vec(X)\)
- \(Vec(XC) = (C^T \otimes I_k) Vec(X)\)
(7)求解矩阵方程\(AX+XB=D\),将两边同时取向量化算子,得到\({\color{red}{(I_m \otimes A + B^T \otimes I_n)Vec(X) = Vec(D)}}\),最后通过常规的求非齐次线性方程组的方法求解。
(8)求微分方程:\(\begin{cases}\dot{X}(t) = AX(t) + X(t)B\\X(0) = C\end{cases}\)
- 用向量化算子作用在方程两边,得到\(Vec(\dot{X}(t)) = (I_n \otimes A + B^T \otimes I_m)Vec(X(t))\)和\(Vec(X(0)) = Vec(C)\)
- 令\(Y(t) = Vec(X(t)), \quad C_1 = Vec(C), \quad G = I_n \otimes A + B^T \otimes I_m\),通过求解普通微分方程的方法得到\(Y(t) = e^{Gt}C_1\);
- 将\(Y(t), \; G, \; C_1\)带入化简求得\(X(t)\)。