一、相似矩阵

1. 特征值与特征向量

（1）定义

若 \(n\) 阶矩阵 \(A\) 满足 \(A\alpha = \lambda\alpha (\lambda \neq 0)\)，则 \(\lambda\) 是 \(A\) 的特征值，\(\alpha\) 是 \(A\) 的属于 \(\lambda\) 的特征向量，\(|\lambda E-A|=0\) 为 \(A\) 的特征多项式。

【注】特征向量不能是零向量！

（2）特征值的性质

（2.1）设 \(A\) 为 \(n\) 阶矩阵，特征值为 \(\lambda_1, \lambda_2, ..., \lambda_n\)，则：

\(\lambda_1 + \lambda_2 + ... + \lambda_n = tr(A) = a_{11} + a_{22} + ... + a_{nn}\)
\(\lambda_1 \lambda_2 ··· \lambda_n = |A|\)
设 \(A\) 有特征值 \(\lambda\)，则 \(\lambda\) 的重数 \(k \geq n - r(\lambda E - A)\)
若 \(r(A) \leq 1\)，则 \(A\) 的特征值为 \(0,0,...,0,tr(A)\)（有 \(n-1\) 个 \(0\)）
若 \(A\) 为三角矩阵或对角矩阵，则 \(A\) 的特征值为主对角线上的元素
若 \(\alpha \neq 0\)，则矩阵 \(\alpha \beta^{\mathrm{T}}\) 的特征值为 \(0,0,...,0,\beta^{\mathrm{T}} \alpha\)，其中特征值 \(\beta^{\mathrm{T}} \alpha\) 对应的特征向量为 \(\alpha\)

（2.2）设 \(A\) 为 \(n\) 阶实对称矩阵，则：

\(A\) 的元素均为实数，且 \(A^{\mathrm{T}}=A\)
\(A\) 的特征值必为实数
\(A = \alpha\beta^{\mathrm{T}} + \beta\alpha^{\mathrm{T}}\) 为实对称矩阵

（3）特征向量的性质

（3.1）设 \(A\) 为 \(n\) 阶矩阵，则：

\(A\) 的不同特征值对应的特征向量线性无关
\(A\) 的不同特征值对应的特征向量之线性组合不是 \(A\) 的特征向量
设 \(A\) 有 \(k\) 重特征值 \(\lambda\)，则属于 \(\lambda\) 的线性无关的特征向量个数 \(s = n-r(\lambda E-A) \leq k\)
设 \(A\) 有 \(k\) 重特征值 \(\lambda\)，则属于 \(\lambda\) 的线性无关的特征向量之线性组合仍为 \(A\) 的特征向量

（3.2）设 \(A\) 为 \(n\) 阶实对称矩阵，则：

\(A\) 的不同特征值的特征向量相互正交
设 \(A\) 有 \(k\) 重特征值 \(\lambda\)，则属于 \(\lambda\) 的线性无关的特征向量个数 \(s = n-r(\lambda E-A) = k\)

（4）常用结论

矩阵	\(A\)	\(kA\)	\(A^{n}\)	\(A+kE\)	\(f(A)\)	\(A^{-1}\)	\(A^*\)	\(P^{-1}AP\)	\(A^{\mathrm{T}}\)
特征值	\(\lambda\)	\(k\lambda\)	\(\lambda^{n}\)	\(\lambda+k\)	\(f(\lambda)\)	\(\frac{1}{\lambda}\)	\(\frac{\|A\|}{\lambda}\)	\(\lambda\)	\(\lambda\)
特征向量	\(\alpha\)	\(\alpha\)	\(\alpha\)	\(\alpha\)	\(\alpha\)	\(\alpha\)	\(\alpha\)	\(P^{-1}\alpha\)	不一定是 \(\alpha\)

【注 1】关于 \(A\) 和 \(f(A)\) 的几个要点：

若 \(f(A) = 0\)，则 \(A\) 的每个特征值 \(\lambda\) 都满足 \(f(\lambda)=0\)

若 \(f(\lambda)=0\) 求得解 \(\lambda_1, \lambda_2,..., \lambda_t\)，则 \(A\) 的特征值可能有 \(\lambda_1, \lambda_2,..., \lambda_t\) 的其中几个（或一个都没有！），但不能确定 \(A\) 的特征值一定都有 \(\lambda_1, \lambda_2,..., \lambda_t\)

【注 2】一个可以快速计算矩阵 \(A\) 的特征值的技巧：将 \(A\) 拆分成数量矩阵 \(kE\) 加一个秩为 \(1\) 的矩阵 \(B\)，于是 \(A=B+kE\)，矩阵 \(B\) 的特征值容易写出，自然也就得到矩阵 \(A\) 的特征值了。

2. 相似关系

（1）相似的定义

设 \(A,B\) 为 \(n\) 阶矩阵，若存在可逆矩阵 \(P\)，使得 \(P^{-1}AP=B\)（即 \(AP=PB\)），则称 \(A\) 与 \(B\) 相似，记作 \(A∽B\)。

（2）相似的性质

（2.1）对称性和传递性：

对称性：\(A∽B \Leftrightarrow B∽A\)
传递性：\(A∽B, B∽C \Rightarrow A∽C\)

（2.2）若 \(A∽B\) 且 \(P^{-1}AP=B\) 时，有：

\(A∽B \Rightarrow A^{\mathrm{T}}∽B^{\mathrm{T}}\)
\(A∽B \Rightarrow A^n∽B^n\)
\(A∽B \Rightarrow A^{-1}∽B^{-1}\)，并且 \(P^{-1} A^{-1} P = B^{-1}\)（当 \(A\) 可逆时）
\(A∽B \Rightarrow A^*∽B^*\)，并且 \(P^{-1} A^* P = B^*\)（当 \(A\) 可逆时）
\(A∽B \Rightarrow f(A)∽f(B)\)，并且 \(P^{-1} f(A) P = f(B)\)
\(\eta\) 是 \(A\) 的特征向量 \(\Leftrightarrow P^{-1} \eta\) 是 \(B\) 的特征向量
\(A∽B \Rightarrow |A|=|B|\)
\(A∽B \Rightarrow |\lambda E-A| = |\lambda E-B|\)
\(A∽B \Rightarrow r(A)=r(B)\)
\(A∽B \Rightarrow tr(A)=tr(B)\)
\(A∽B \Rightarrow A\) 和 \(B\) 有相同的特征值

【注 1】由 \(A∽B\) 可得出以上结论，但反过来，这些条件却并不能得到 \(A∽B\)。
【注 2】以上条件只要有一个不满足，即可判断 \(A\) 不相似于 \(B\)。
【注 3】若要判断 \(A∽B\)，则可尝试求出 \(A\) 和 \(B\) 的对角矩阵，若它们都相似于同一个对角矩阵（即 \(A∽\Lambda,B∽\Lambda\)），则根据相似的传递性，可得 \(A∽B\)。

（2.3）设 \(A,B\) 均为 \(n\) 阶实对称矩阵，则：

\(A\) 必相似于实对角矩阵，即 \(A∽\Lambda\)
\(A∽B \Leftrightarrow A\) 和 \(B\) 有相同的特征值及重数 \(\Leftrightarrow |\lambda E-A| = |\lambda E-B|\)

【注】\(|\lambda E-A| = |\lambda E-B| \Leftrightarrow\) \(A\) 和 \(B\) 有相同的特征值及重数\(\Leftrightarrow A∽\Lambda,B∽\Lambda \Leftrightarrow A∽B\)

存在正交矩阵 \(Q\)，使得 \(Q^{\mathrm{T}}AQ = Q^{-1}AQ = \Lambda\)

3. 相似对角化

（1）相似对角化的定义

设 \(n\) 阶对角矩阵 \(\Lambda = \mathrm{diag}(\lambda_1,\lambda_2,...,\lambda_n)\)，其中 \(\lambda_i\) 为 \(A\) 的特征值，若存在可逆矩阵 \(P\)，使得 \(P^{-1}AP=\Lambda\)（即 \(AP=P\Lambda\)），则称 \(A\) 可相似对角化，简称为可对角化，记作 \(A∽\Lambda\)。

（2）可对角化的判别

（设 \(A\) 为 \(n\) 阶矩阵）

\(A\) 有 \(n\) 个不同的特征值 \(\Rightarrow A∽\Lambda\)
\(A∽\Lambda \Leftrightarrow A\) 有 \(n\) 个线性无关的特征向量
\(A∽\Lambda \Leftrightarrow A\) 的 \(k\) 重特征值 \(\lambda\) 有 \(k\) 个线性无关的特征向量 \(\Leftrightarrow k = n-r(\lambda E-A)\)

【注】当 \(k=1\) 时，\(k = n-r(\lambda E-A)\) 一定成立，因此只需对 \(k \geq 2\) 的特征值进行判断。

\(A\) 满足 \((A-aE)(A-bE)=0 (a \neq b) \Leftrightarrow A∽\Lambda\)，且特征值满足 \((\lambda-a)(\lambda-b)=0\)
实对称矩阵必可相似对角化，且正交于对角矩阵

（3）相似对角化的步骤

（3.1）一般矩阵 \(A\) 的相似对角化的步骤：

由 \(|\lambda E - A|=0\) 求出 \(A\) 的特征值 \(\lambda_1,\lambda_2,...,\lambda_n\)
对每个 \(\lambda_i\)，由 \((\lambda_i E - A)x=0\) 求出 \(A\) 的一组特征向量 \(\alpha_1,\alpha_2,...,\alpha_n\)
令 \(P=(\alpha_1,\alpha_2,...,\alpha_n)\)，当 \(P\) 可逆时，有 \(P^{-1}AP=\Lambda= \mathrm{diag}(\lambda_1,\lambda_2,...,\lambda_n)\)

【注】有些题目没有给出具体的矩阵 \(A\)，只给定一些已知的特征值和特征向量，要求反求出矩阵 \(A\)。有两种解法：

传统的解法：求出对角矩阵 \(\Lambda = \mathrm{diag}(\lambda_1,\lambda_2,\lambda_3)\) 和可逆矩阵 \(P=(\alpha_1,\alpha_2,\alpha_3)\)，然后由 \(P^{-1}AP=\Lambda\) 得到 \(A=P \Lambda P^{-1}\)。这种解法需要对 \(P\) 求逆（需使用初等行变换求出），然后进行两次矩阵乘法。

较快的解法：求解矩阵 \(A\) 的过程实际上是在求解一个矩阵方程。因为 \(P^{-1}AP=\Lambda \Leftrightarrow AP=P\Lambda \Leftrightarrow A(\alpha_1,\alpha_2,\alpha_3)=(\lambda_1 \alpha_1,\lambda_2 \alpha_2,\lambda_3 \alpha_3)\)，取转置即得矩阵方程 \((\alpha_1,\alpha_2,\alpha_3)^{\mathrm{T}} A^{\mathrm{T}} = (\lambda_1 \alpha_1,\lambda_2 \alpha_2,\lambda_3 \alpha_3)^{\mathrm{T}}\)，于是求解 \(A^{\mathrm{T}}\) 只需进行初等行变换：\((\alpha_1^\mathrm{T},\alpha_2^\mathrm{T},\alpha_3^\mathrm{T} | \lambda_1 \alpha_1^\mathrm{T},\lambda_2 \alpha_2^\mathrm{T},\lambda_3 \alpha_3^\mathrm{T}) \rightarrow (E|A^{\mathrm{T}})\)。显然该法比传统解法要更快！

（3.2）实对称矩阵 \(A\) 的相似对角化的步骤：

由 \(|\lambda E - A|=0\) 求出 \(A\) 的特征值 \(\lambda_1,\lambda_2,...,\lambda_n\)
对每个 \(\lambda_i\)，由 \((\lambda_i E - A)x=0\) 求出 \(A\) 的一组特征向量 \(\alpha_1,\alpha_2,...,\alpha_n\)
对单重特征值的特征向量进行单位化；对多重特征值对应的特征向量进行施密特正交化和单位化
令正交矩阵 \(Q=(\eta_1,\eta_2,...,\eta_n)\)，有 \(Q^{\mathrm{T}}AQ = Q^{-1}AQ=\Lambda= \mathrm{diag}(\lambda_1,\lambda_2,...,\lambda_n)\)

【注】有些题目没有给出具体的实对称矩阵 \(A\)，只给出其中一个或两个特征向量 \(\alpha\)，若需要算出其他的特征向量，应使用“实对称矩阵的不同特征值的特征向量相互正交”这一性质来求解。

（3.3）施密特正交化

\[\left\{ \begin{aligned} &\beta_1 = \alpha_1 \\ &\beta_2 = \alpha_2 - \frac{(\alpha_2, \beta_1)}{(\beta_1,\beta_1)} \beta_1 \\ &\beta_3 = \alpha_3 - \frac{(\alpha_3, \beta_1)}{(\beta_1,\beta_1)} \beta_1 - \frac{(\alpha_3, \beta_2)}{(\beta_2,\beta_2)} \beta_2 \\ \end{aligned} \right. \]

【注】施密特正交化的推导过程以及其延伸出的一些解题思路，可见本人专栏的另一篇文章。

（3.4）单位化

\[\left\{ \begin{aligned} &\eta_1 = \beta_1 / ||\beta_1|| \\ &\eta_2 = \beta_2 / ||\beta_2|| \\ &\eta_3 = \beta_3 / ||\beta_3|| \\ \end{aligned} \right. \]

（\(||\beta_i||\) 为向量的长度）

令正交矩阵 \(Q=(\eta_1,\eta_2,\eta_3)\)，有 \(Q^{\mathrm{T}}AQ = Q^{-1}AQ=\Lambda= \mathrm{diag}(\lambda_1,\lambda_2,\lambda_3)\)

二、合同矩阵

1. 二次型

（1）二次型的定义

二次型：\(f(x_1,x_2,...,x_n)=x^{\mathrm{T}}Ax\)，其中 \(A\) 是实对称矩阵。
标准二次型：若交叉项的系数为 \(0\)，则得到标准二次型，\(A\) 是实对角矩阵。
规范二次型：若每一项去掉系数，只保留正负，则得到规范二次型，\(A\) 是实规范对角矩阵，即 \(\left[ \begin{matrix} E_p & & \\ & -E_q & \\ & & O \end{matrix} \right]\)，其中 \(p\) 为正惯性指数（正平方项个数），\(q\) 为负惯性指数（负平方项个数）。

【注】标准二次型是不唯一的，规范二次型是唯一的。

可逆线性变量替换：对二次型 \(f(x_1,x_2,...,x_n)=x^{\mathrm{T}}Ax\) 引进新变量 \(y_1,y_2,...,y_n\) 用来表示 \(x_1,x_2,...,x_n\)：

\[\left\{ \begin{aligned} x_1 = c_{11}y_1 + c_{12}y_2 + ...+ c_{1n}y_n \\ x_2 = c_{21}y_1 + c_{22}y_2 + ...+ c_{2n}y_n \\ ..................\\ x_3 = c_{n1}y_1 + c_{n2}y_2 + ...+ c_{nn}y_n \\ \end{aligned} \right. \]

将其中的系数矩阵记为 \(C\)，若 \(C\) 为可逆矩阵，则称为可逆线性变量替换，上式又可写成：\(x=Cy\)，所以二次型可化为：\(f(x_1,x_2,...,x_n)=y^{\mathrm{T}}C^{\mathrm{T}}ACy\)，可逆线性变量替换后的二次型为 \(g(y_1,y_2,...,y_n)=C^{\mathrm{T}}AC\)。

（2）惯性定理

标准二次型 \(f=x^{\mathrm{T}}Ax\) 中，\(A\) 是实对称矩阵，\(p\) 为正惯性指数（正平方项个数），\(q\) 为负惯性指数（负平方项个数），则 \(r(A)=p+q\)。

【注】必须是在实对称矩阵的条件下！

（3）最大和最小值

设 \(n\) 元二次型 \(f=x^{\mathrm{T}}Ax\)，其中实对称矩阵 \(A\) 的特征值 \(\lambda_1,\lambda_2,...,\lambda_n\) 中最大值为 \(\lambda_{max}\)，最小值为 \(\lambda_{min}\)，且 \(x^{\mathrm{T}}Ax = M > 0\)，则有：

\[M \lambda_{min} \leq x^{\mathrm{T}}Ax \leq M \lambda_{max} \]

（4）二次型的标准化（合同对角化）

（4.1）正交变换法

由 \(|\lambda E - A|=0\) 求出二次型矩阵 \(A\) 的特征值 \(\lambda_1,\lambda_2,...,\lambda_n\)
对每个 \(\lambda_i\)，由 \((\lambda_i E - A)x=0\) 求出 \(A\) 的一组特征向量 \(\alpha_1,\alpha_2,...,\alpha_n\)
对单重特征值的特征向量进行单位化；对多重特征值对应的特征向量进行施密特正交化和单位化
令正交矩阵 \(Q=(\eta_1,\eta_2,...,\eta_n)\)，有可逆线性变量替换 \(x=Qy\)，把原二次型化为标准二次型，\(A\) 的特征值 \(\lambda_1,\lambda_2,...,\lambda_n\) 对应标准二次型中每一项的系数

（4.2）拉格朗日配方法

若二次型中有平方项 \(x_i^2\) 和交叉项 \(x_ix_j\)，则把含有 \(x_i\) 的项集中起来进行配方
若二次型中仅有交叉项 \(x_ix_j\)，则进行以下换元，此时将产生出平方项，按第一种方法进行配方：

\[\left\{ \begin{aligned} & x_i = y_i + y_j \\ & x_j = y_i - y_j \\ & x_k = y_k (k=1,2,...,n)(k \neq i,j) \\ \end{aligned} \right. \]

也可使用公式 \(ab = \frac{(a+b)^2 - (a-b)^2}{4}\) 产生出平方项

【例】用配方法将二次型 \(f(x_1,x_2,x_3) = x_1x_2 + x_2x_3 + x_1x_3\) 化为标准型。

【解】根据交叉项 \(x_1x_2\) 可进行以下换元（当然也可以挑选其他交叉项进行换元）：

\[\left\{ \begin{aligned} & x_1 = y_1 + y_2 \\ & x_2 = y_1 - y_2 \\ & x_3 = y_3 \\ \end{aligned} \right. \]

所以 \(f(x_1,x_2,x_3) = y_1^2 + y_2^2 + 2y_1y_3\)，配方得 \(f(x_1,x_2,x_3) = (y_1+y_3)^2 - y_2^2 - y_3^2\)。

2. 合同关系

（1）合同的定义

设 \(n\) 阶矩阵 \(A,B\)，若存在可逆实矩阵 \(C\)，使得 \(B=C^{\mathrm{T}}AC\)，则称 \(A\) 和 \(B\) 合同，记为 \(A≃B\)。

【注】在矩阵合同的定义中，并没有要求合同的矩阵一定是实对称矩阵。

（2）合同的性质

（2.1）一般矩阵的性质（设 \(A,B\) 为一般矩阵）：

两个二次型（分别对应实对称矩阵 \(A,B\)）可用可逆线性变量替换互相转化 \(\Leftrightarrow A≃B\)
\(A≃B \Leftrightarrow\) 正、负惯性指数相同，即 \(p_A=p_B, q_A=q_B\)
\(A≃B \Leftrightarrow\) 正、负特征值个数相同
\(A≃B \Rightarrow r(A)=r(B)\)

【注】\(A≃B \Rightarrow p_A=p_B, q_A=q_B \Rightarrow r(A)=r(B)\)，但 \(r(A)=r(B) \nRightarrow A≃B\)，只能推出 \(A\) 和 \(B\) 等价（若 \(A,B\) 同型）。

\(A∽B \nLeftrightarrow A≃B\)

【注】这是在一般矩阵下的得出的结论：

合同不一定相似：很容易理解，合同只能推出矩阵 \(A,B\) 所对应的对角矩阵元素的正负个数相等，但无法推出对角矩阵元素均相等。

相似不一定合同：由 \(A∽B\) 可得 \(P^{-1}AP=B\)，但无法保证 \(P^{-1} = P^{\mathrm{T}}\)。

（2.2）实对称矩阵的性质（设 \(A,B\) 为实对称矩阵）：

实对称矩阵必能合同对角化，即 \(C^{\mathrm{T}}AC = \Lambda\)
若 \(A\) 为实对称矩阵，则：\(A≃B \Rightarrow B\) 为实对称矩阵

【证明】\(A≃B \Rightarrow C^{\mathrm{T}}AC = B \Rightarrow (C^{\mathrm{T}}AC)^{\mathrm{T}} = (B)^{\mathrm{T}} \Rightarrow C^{\mathrm{T}}A^{\mathrm{T}}C = B^{\mathrm{T}} = B\)，说明 \(B\) 也为实对称矩阵。

\(A∽B \Rightarrow A≃B\)，但 \(A∽B \nLeftarrow A≃B\)

【注】这是在实对称矩阵下的得出的结论：

相似是合同的特例：实对称矩阵必与对角矩阵相似，可得 \(A∽B \Rightarrow A∽B∽\Lambda\)，所以 \(A,B\) 有相同的特征值，即 \(A,B\) 有相同的正、负惯性指数，由惯性定理知 \(A≃B\)。

合同不一定相似：很容易理解，合同只能推出矩阵 \(A,B\) 所对应的对角矩阵元素的正负个数相等，但无法推出对角矩阵元素均相等。

3. 正定矩阵

（1）正定的定义

设二次型 \(f(x_1,x_2,...,x_n) = x^{\mathrm{T}}Ax\)，其中 \(A\) 是实对称矩阵。若对任意 \(x \neq 0\)，都有 \(f(x_1,x_2,...,x_n) = x^{\mathrm{T}}Ax > 0\)，则称二次型 \(f\) 正定，称 \(A\) 为正定矩阵。

【注 1】判定矩阵 \(A\) 正定时，需要检验 \(A\) 是否为实对称矩阵。
【注 2】若二次型 \(f\) 正定，则仅当 \(x = 0\) 时，\(f(x_1,x_2,...,x_n) = x^{\mathrm{T}}Ax = 0\)。

（2）正定的性质

\(A\) 正定 \(\Rightarrow A\) 为实对称矩阵
\(A\) 正定 \(\Leftrightarrow A\) 的特征值全部大于 \(0\)
\(A\) 正定 \(\Leftrightarrow A\) 的顺序主子式全大于 \(0\)
\(A\) 正定 \(\Leftrightarrow \exist可逆P\)，使得 \(A=P^{\mathrm{T}}P \Leftrightarrow A≃E\)
\(A\) 正定 \(\Rightarrow a_{ii} > 0\)
\(A\) 正定 \(\Rightarrow |A| > 0\)
\(A\) 正定 \(\Rightarrow A^k, A^{-1}, A^*\) 均正定
\(\left[ \begin{matrix} A & O \\ O & B \end{matrix} \right]\) 正定 \(\Leftrightarrow A,B\) 均正定
对于实矩阵 \(A^{\mathrm{T}}A\)：
- \(A^{\mathrm{T}}A\) 的负惯性指数为 \(0\)
- 若 \(r(A)=n\)，则 \(A^{\mathrm{T}}A\) 正定

【证明】（1）首先证明矩阵 \(A^{\mathrm{T}}A\) 为实对称矩阵。因为 \((A^{\mathrm{T}}A)^{\mathrm{T}} = A^{\mathrm{T}} (A^{\mathrm{T}})^{\mathrm{T}} = A^{\mathrm{T}} A\)，所以 \(A^{\mathrm{T}}A\) 为实对称矩阵。

（2）现在用特征值证明其正定。设 \(\lambda\) 是矩阵 \(A^{\mathrm{T}}A\) 的特征值，所对应的特征向量为 \(\alpha\)，则有：\(A^{\mathrm{T}}A \alpha = \lambda \alpha\)，等式两边同乘 \(\alpha^{\mathrm{T}}\) 得：\(\alpha^{\mathrm{T}} A^{\mathrm{T}}A \alpha = \lambda \alpha^{\mathrm{T}} \alpha\)，化为内积形式即：\((A\alpha,A\alpha) = \lambda (\alpha, \alpha)\)，显然 \(\lambda \geq 0\)，矩阵 \(A^{\mathrm{T}}A\) 负惯性指数为 \(0\)。

（3）当 \(r(A)=n\) 时，表示 \(Ax=0\) 仅有非零解，所以 \(A \alpha \neq 0\)，\((A\alpha,A\alpha) > 0\)，显然 \(\lambda > 0\)，矩阵 \(A^{\mathrm{T}}A\) 正定。