cs 保研经验贴 | 数学试题 · 自动化所特供版-526互联

据（2022 年我所看的）往年经验，自动化所比较重视数学。感觉，按照自动化所的数学题库复习，就足以应付大多数夏令营的笔试面试了。

高等数学
线性代数
概率论
机器学习
复变函数
其他

高等数学

初等函数的定义：
- 幂函数、指数函数、对数函数、三角函数、反三角函数，与常数经过有限次的有理运算（加、减、乘、除、有理数次乘方、有理数次开方），及有限次函数复合的函数。并且能用一个解析式表示。
反函数存在条件：
- 定义域值域一一映射。
二次积分和二重积分的区别和联系：
- 没有本质区别。将二重积分化为二次积分（不一定能），是为了好算。
- 二重积分：二元函数在空间上的积分，求曲顶柱体体积。
- 二次积分：两次单变量积分，就是平常计算时，一个变量一个变量积分、
green 公式，gauss 公式，stokes 公式，条件关联
- 条件：闭区域面 / 体 / 光滑曲面带边界，连续且一阶连续偏导数。
- green： Qx - Py， $\iint\limits_{D}(\frac{\partial Q}{\partial x}-\frac{\partial P}{\partial y})dxdy=\oint_LPdx+Qdy$
- gauss： Px + Qy + Rz， $\iiint\limits_{V}(\frac{\partial P}{\partial x}+\frac{\partial Q}{\partial y}+\frac{\partial R}{\partial z})dxdydz=\iint\limits_{S}\!\!\!\!\!\!\!\!\!\!\!\!\;\subset\!\supset\ Pdydz+Qdxdz+Rdxdy$
- stokes： $\oint_LPdx+Qdy+Rdz=\iint\limits_S(\frac{\partial R}{\partial y}-\frac{\partial Q}{\partial z})dydz+(\frac{\partial P}{\partial z}-\frac{\partial R}{\partial x})dzdx+(\frac{\partial Q}{\partial x}-\frac{\partial P}{\partial y})dxdy$
- 关系：
数列和函数极限的定义：
- 数列极限：若存在 A，使得任意 ε 存在 N，n>N → |a_n-A|<ε，则 lim a_n=A
- 函数极限：若存在 A，使得任意 ε 存在 δ，|x1-a|<δ → |f(x1)-A|<ε，则 lim f(a)=A
什么是连续、可导 / 可微。
- 连续：某点连续：极限值=函数值（不会跳变），函数连续：每个点都连续。
- 一致连续：对区间 I 上任意两点 x1 x2，任意 ε 存在 δ，|x1-x2|<δ → |f(x1)-f(x2)|<ε。不能陡到难以接受。闭区间上连续等价于一致连续。
- 可微：若自变量在点x的改变量 Δx（可能是向量），与函数相应的改变量Δy，有关系Δy=A·Δx+ο(Δx)，其中A与Δx无关。那么 A 是微分。
- 可导：lim Δy/Δx =A 存在，那么 A 是导数。两侧可导 → 连续，单侧可导另一侧可跳变。
- 方向导数：lim f(x+Δx, y+Δy) / sqrt(Δx²+Δy²) =A 存在，那么 A 是导数。
可微可导连续关系
- 一元：可微 = 可导＞连续＞可积。
- 多元：
  - 偏导数在邻域存在且连续 → 可微；
  - 可微＞偏导数存在，两边偏导数 → 连续，一边偏导数不一定连续。
Riemann 积分的概念：
- 黎曼可积：如果函数 f 在闭区间 [a,b] 上，无论怎样进行分割，只要子区间长度最大值足够小，黎曼和都趋向于一个确定值，那么在闭区间 [a,b] 上的黎曼积分存在 = 黎曼和的极限。
- 任意 ε 存在 δ，子区间长度最大值 λ＜δ 时，$|\sum_{i=1}^{n-1}f(t_i)(x_{i+1}-x_i)|-S<\epsilon$ 。
- 可验证的定义，达布积分：任意 ε 存在分割，使得任何更精细的分割都 |Σ|-S＜ε。
Lebesgue 积分的概念（没学过，不太会）。
如何求带条件的极值，lagrange 乘数法：
- z=f(x,y) 当 φ(x,y)=0 时的极值，构造 lagrange 函数 L(x,y,λ) = f(x,y) + λφ(x,y)。
- 求 L 的驻点，即 x y λ 偏导数 = 0，即得。
介值定理，零点存在定理，最值定理：
- 介值定理：设函数 $f(x)$ 是 $\left[ a,b\right]$ 上的连续函数，且存在不等式 $f(a)<c<f(b)/f(b)<c<f(a)$ ，则必然至少一个数 $\xi\in(a,b)$ ，能够使得 $f(\xi)=c$ 。
- 零点存在定理：设函数是 $\left[ a,b\right]$ 上的连续函数，且存在不等式 $f(a)f(b)<0$ ，则在 $(a,b)$ 上，至少存在一个数 $\xi$ ，能够使得 $f(\xi)=0$ 成立。
- 最大值最小值定理：设函数 $f(x)$ 为 $\left[ a,b\right]$ 上的连续函数，则 $f(x)$ 必然在 $\left[ a,b\right]$ 上存在最大值 $M$ 和最小值 $m$ 。
积分中值定理：
- 条件：闭区间 / 有界闭区域连续。
- 第一：存在 ε∈[a,b] 使得
- 第二：f 在 [a,b] 可积（不一定连续），g 在 [a,b] 上单减且 ≥ 0，存在 ξ∈[a,b] ，还有一个单增形式。
微分中值定理：lagrange，cauchy，Rolle，区别联系条件
- 条件：闭区间连续，开区间可导。
- Rolle： f(a)=f(b) 则 f'(ξ)=0。
- lagrange： f'(ξ) = (f(b)-f(a)) / (b-a)
- cauchy： f'(ξ)/g'(ξ) = (f(b)-f(a)) / (g(b)-g(a))
- 联系：是推广 & 特殊情况的关系。
洛必达法则 L' Hospital：
- 0/0 ∞/∞ 上下求导。
- 条件：
  - x → a 时 f 和 F 都 → 0，在 a 的去心邻域里 f' F' 都存在且 F' ≠ 0，lim f' / F' 存在（或为无穷大）。
  - x → ∞ 时 f 和 F 都 → 0，当 |x|＞N 时 f' F' 都存在且 F' ≠ 0，lim f' / F' 存在（或为无穷大）。
- 解析式：$lim_{x\rarr a} f(x)/F(x)=lim_{x\rarr a} f'(x)/F'(x)$ 。
- 理解：局部切线代替函数曲线。
泰勒公式：
- ，方法是拿待定系数多项式近似，求导 LHS=RHS 求待定系数。
- piano 余项：o[(x-x0)^n] 是 (x-x0)^n 的高阶无穷小，lagrange 余项 $R_{n}\left ( x \right ) = \frac{f^{\left ( n+1 \right )}(\xi )}{\left ( n+1 \right )!}(x-x_{0})^{n+1}$ 。
- 泰勒级数收敛：充要：泰勒展开幂级数收敛（看收敛域），且某一数的邻域里，展开阶数 → 无穷，lagrange 余项 → 0。
代数基本定理：
- n次复系数多项式方程，在复数域内有且只有n个根（重根按重数计算）。
牛顿迭代法：
- 求解函数零点：借助泰勒级数，从初始值开始，快速向零点逼近。
- 找一点 x，做斜率为导数的切线，更新 x = 切线与 x 轴交点。
- 收敛条件：f(x) 充分光滑（各阶导数存在且连续），f'(a) ≠ 0（单重零点）则初始值在 a 的某个邻域里收敛速度二阶，f'(a) = 0（多重零点）收敛速度一阶。
- x 阶收敛：第 k 次迭代绝对误差为 ek，，若 p=2 则二阶收敛。
- 缺点：函数光滑严苛，初始值必须尽量靠近最终解。

线性代数

向量空间 / 线性空间：
- 某集合里定义了向量加法数乘运算，集合对加法数乘封闭。
- 加法满足：交换律 α+β=β+α，结合律 α+(β+γ)=(α+β)+γ，零元 α+0=α 逆元 α+β=0 β=-α。
- 乘法满足：单位元 1α=α，结合律 (kl)α=k(lα)，和向量加法的两个分配律 (k+l)α=kα+lα k(α+β)=kα+kβ。
线性相关 & 线性无关：
- 对线性空间 V 里的向量 v1, v2, ..., vn，存在不全为零的 c1, c2, ..., cn，使得 c1v1+ c2v2+ ... + cnvn = 0，那么 v1, v2, ..., vn 线性相关。如果不存在不全为零的 c 则线性无关。
- 线性相关：列向量组成矩阵行秩不满，可以用一堆东西的线性组合表示另一个。
- 线性无关：广义组成的四边形六面体超几何体体积不为零。
- 极大线性无关组：在某线性空间中，拥有向量个数最多的线性无关向量组。
矩阵的秩 Matrix Rank，物理意义，相关的性质：
- 线性无关向量的个数，最大行列式 ≠ 0 子式的维度。
- 定义的相互转化（等价性）：
  - r 阶行列式 ≠ 0 子式，这 r 个向量线性无关。
  - 若取 r+1 阶子式，这些行 / 列向量必然线性相关，则行列式 = 0。
- 性质：
  - 基础：初等变换不改变秩，乘可逆矩阵不改变秩，矩阵可逆 <=> 矩阵满秩
  - 高级：
    - r(A) + r(B) - n ≤ r(AB) ≤ min{r(A), r(B)}，（分块矩阵）
    - max{r(A), r(B)} ≤ r(A, B) ≤ r(A) + r(B)，（感性理解）
    - A B 相似则 r(A)=r(B)。
- 物理意义：把矩阵看作变换，变换后，虽然没法完全不丢信息（不满秩），但至少还能保住几个面（秩）。
矩阵的迹 trace，相关的性质：
- 所有对角元的和，也是所有特征值的和。
- tr(AB) = tr(BA)，tr(mA+nB) = m tr(A) + n tr(B)，线性可乘。
- d tr(A) = tr(dA)
线性方程组 Ax = b 有解 / 无解 / 有唯一解的条件：
- 有解：b 存在于 A 的列向量的线性空间，b 能被 A 的列向量线性表示，A 的秩 = 分块矩阵 (A,b) 的秩
- 多解 / 唯一解：A 的列向量线性无关（列满秩），唯一解；Ax=0 列满秩，则只有零解。非列满秩，则多解。
- （系数矩阵 / 增广矩阵）
矩阵的特征值是什么，有什么物理意义，应用
- Ax=λx。算子的本征值（投影不变，有点像傅里叶变换卷积指数信号还是指数信号）。
- —个变换矩阵的所有特征向量，都是正交的，组成了这个变换矩阵的一组基。
- 矩阵的特征值分解：$A=Q\Sigma Q^{-1}$，Σ是对角阵，Q是特征列向量组成的矩阵。
- 怎么求：
  - 写出方程丨λE-A丨=0，其中I为与A同阶的单位阵，λ为代求特征值
  - 将n阶行列式变形化简，得到关于λ的n次方程
  - 解此n次方程，即可求得A的特征值
- 应用：PCA 主成分分析。
初等变换：
- 用一非零的数乘以某一行 / 列，把一行 / 列的倍数加到另一行 / 列，互换两行 / 列的位置。
- 初等矩阵：单位矩阵 E 经过一次初等变换。
- 矩阵上三角下三角：
  - 行列式为对角线元素相乘。直接初等变换即可得到。
矩阵的恒等变换：
- 就是单位矩阵。
奇异矩阵：
- 行列式 = 0 的方阵，非满秩的方阵。
伴随矩阵：
矩阵对角化：
- 特征值特征向量判断能否对角化：
  - 所有特征值都不相等：ok。
  - 重数为 k 的特征值也有 k 个特征向量：ok。小于 k 则不行。
- 对角化的方法：
  - 特征值求出来，然后特征向量组成的矩阵单位正交化，最后 Σ = T'AT。
正交矩阵：
- $AA^T=A^TA=E$。
- $A^T=A^{-1}$ 也是正交矩阵，行向量列向量是单位向量且两两正交，|A|=1 或 -1（显然）。行向量 / 列向量是规范正交基。
- 左乘正交矩阵造成的空间变换，是用一个新空间代替原有空间，即用另一组正交基描述被变换的向量，不改变原向量的长度和空间位置。
矩阵的等价，相似，合同：
- 相似：P^{-1}AP=B，则 A B 相似。
  - 条件：
    - 充要：两矩阵有相同的行列式，不变因子，初等因子组。
    - 充要：相同的 Jordan 标准型（除 Jordan 块排列次序）。
    - 必要（相似能推出以下）：行列式，秩，迹，特征多项式一样。。
  - 相似对角化：与对角阵相似，当且仅当 A 有 n 个线性无关的特征向量。
  - 施密特正交化：得到标准正交向量组，即大家既正交又单位向量。
- 合同：P^{T}AP=B，则 A B 合同。
- 等价：r(A) = r(B)，秩相等。如果 B 可由 A 经过一系列初等变换得到，则等价。
二次型，正定矩阵，半正定矩阵。
- 二次型： $f(x_1,x_2,\dots,x_n)=\sum_{i=1}^{n}a_{ii}x_i^2+2\sum_{1\leq i<j\leq n}a_{ij}x_ix_j$ ， $\mathbf{A}=\left(\begin{array}{cccc} a_{11} & a_{12} & \cdots & a_{1 n} \\ a_{21} & a_{22} & \cdots & a_{2 n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{n 1} & a_{n 2} & \cdots & a_{n n} \end{array}\right)$ 。
- 正定二次型：对任意一组不全为零的实数 x1..n，都有 f(x1..n) = X^{T}AX > 0。A 也称为正定矩阵。
- 正定矩阵的判定：（应该是充要了）特征值均为正（为零也不行）。
- 半正定：f ≥ 0，特征值均非负。负定半负定定义相似。
Jordan 标准型：
- Jordan 块：
- Jordan 标准型：由 Jordan 块组成的块对角矩阵。
- 化为 Jordan 标准型：任意方阵都可化为，初等因子法：
  - 首先用初等变换，化特征矩阵 λE-A 化为对角形式，然后将主对角上的元素分解成互不相同的一次因式方幂的乘积，则所有这些一次因式的方幂（相同的按出现的次数计算）就是 A 的全部初等因子。
  - 然后就不会了。
矩阵的微分，Hessian 矩阵，Jacobian 矩阵：
- 梯度，相当于多元标量函数对向量求导。
- Hessian 矩阵，多元标量函数的二阶微分：
- Jacobian 矩阵，向量函数对向量微分，：
- 如果矩阵元素都是某个标量的函数，那么直接微分大小和原矩阵一样。
- 矩阵乘法的微分：
什么是向量范数，矩阵范数？
- 范数定义：正定（零矩阵范数=0），齐次（|λA|=λ|A|），三角不等式（两边范数之和 ≥ 第三边范数）。
- 向量的 L1 norm，L2 norm，矩阵我没学过。
矩阵的幂运算：
- A^n = A^{n-1} · A = A · A^{n-1}。
- 相似对角化：如果 A = Q^{-1} · Λ · Q，那么直接对角阵元素 n 次方。
- 幂等矩阵：A^n = A，特征值只可能是 0 1，迹 = 秩 tr(A)=rank(A)，A(E-A)=(E-A)A。
什么是 Pseudo Inverse 伪逆矩阵？
- （奇异矩阵非方阵不存在逆矩阵）逆矩阵的广义形式。
- 与 A 的转置矩阵 A' 同型的矩阵 X，并且满足：AXA=A, XAX=X
MATLAB解线性方程组的原理。
- https://ww2.mathworks.cn/help/matlab/ref/mldivide.html
- https://blog.csdn.net/yan17iiiiii/article/details/116424353，使用一些分解，LU 分解等等。

概率论

概率论和数理统计的区别与联系
- 概率论：更数学，从已知形式或某些参数的分布 / 随机变量入手，推断出另一者的性质，比如已知分布形式求期望方差，已知随机变量参数估计分布期望方差（大数定律中心极限定理这是数理统计的基础），已知事件间关系建模求概率（全概率公式贝叶斯公式）。
- 数理统计：更偏应用，基础是概率论，是概率论的应用，从实际出发，从采样出发，主要内容有参数估计、假设检验等。
- 知和用的关系。一个是发现规律，构造模型，证明定理。一个是选择模型，调整模型，应用模型。
什么是概率密度函数，性质：
- 连续型随机变量，f(x) 落在一段区间的概率 / 区间长度，取极限区间长度 → 0。
- 总是 ≥ 0，∫f(x)dx = 1，P{X>x} = ∫_{-∞}^x f(x)dx
联合概率分布、条件概率分布、边缘概率分布：
- 条件概率：B 发生的情况下 A 发生的概率。
- 联合概率：包含多个条件的条件概率。
- 边缘概率：仅与单个随机变量有关的概率，剩下维度按分布求期望。
- 能否直接由边缘分布函数求得联合分布函数：两随机变量不相互独立则不行。
大数定律（切比雪夫，伯努利，辛钦）：
- 当样本数据无限大时，（形式 lim n→∞ P = 1）
  - 样本均值 → 总体均值（切比雪夫，条件为方差有限大）
  - 事件 A 发生的频率 → 概率（伯努利）
  - 样本均值→ 数学期望（辛钦，条件为期望存在）
- 应用：多次采样平均减小误差。
中心极限定理：
- 当样本量 n 逐渐趋于无穷大时，n 个抽样样本的均值的频数，逐渐趋于正态分布 N(μ, σ²/n)。原总体的分布不做任何要求。
- 应用：1. 样本平均值 → 总体均值 / 期望，2. 样本方差 → 估计总体方差。
最大似然估计：
- 概率：结果没有产生之前，根据环境参数，预测某件事情发生的可能性；
- 似然：在确定的结果下，去推测产生这个结果的可能环境参数。
- L(θ|x) = P(x|θ)。既然已经观测到了这个现象，就取让它出现概率最大的环境参数值吧。
贝叶斯公式，应用：
- 已知 B 求 A 的概率，等于 AB 都发生概率 / B 发生的概率。
- 应用：通过发生的事情，反推环境是 xx 因素的概率。
全概率公式：
- 事件 A1，A2，…构成一个完备事件组（互斥且 Σ概率=1），那么 P(B) = Σ P(B|Ai) P(Ai)。
协方差 & 相关系数：
- 协方差：两随机变量线性相关性的强度，$Cov(X,Y)=E{[X−E(X)][Y−E(Y)]}$；
- 相关系数：归一化（不受变量尺度影响），Corr = 0 则不相关。 $Corr(X,Y)=Cov(X,Y)/\sqrt{D(X)}\sqrt{D(Y)}$。
- 协方差 / 相关系数 = 0 但仍然不独立：Y = X²。
正态分布 / 高斯分布：
- 若随机变量 X 服从一个数学期望为 μ、方差为 σ² 的正态分布，记为 N(μ, σ²)。
- 概率密度函数： $p(x) = \frac{1}{{\sqrt {2\pi {\delta ^2}} }}\exp \left[ { - \frac{{{{(x - \mu )}^2}}}{{2{\delta ^2}}}} \right],x \sim N(\mu ,{\delta ^2})$
- 期望值 μ 决定了其位置，标准差 σ 决定分布的跨度。μ = 0, σ = 1：标准正态分布。
- 正态分布能积分出来吗：不太能，最多只有这个 $I^{2}=\lim_{R \rightarrow +\infty}{\int_{0}^{R}e^{-y^{2}}dy}{\int_{0}^{R}e^{-x^{2}}dx}=\lim_{R \rightarrow +\infty}\int\int_{0\leq x\leq R,0\leq y\leq R}e^{-x^{2}-y^{2}}dxdy$
- 应用场景：近似某些分布（中心极限定理），把成绩转换为正态分布（高考赋分）。
- 对正态分布，独立和不相关等价。
- （相互独立的）正态分布相加：μ1 + μ2，σ1² + σ2²。
- （相互独立的）正态分布相乘：(μ1σ2² + μ2σ1²) / (σ1² + σ2²)，σ1²σ2² / (σ1² + σ2²)。
- （相互独立的）正态分布平方和：卡方分布。
- （相互独立的）正态分布联合：多维正态分布，不相互独立不一定。
指数分布均匀分布泊松分布二项分布：公式
- 指数分布：
  - $f(x) = λe^{−λx}, x>0$。X ~ Exp(λ)。
- 均匀分布：
  - X ~ U(a, b)： f(x) = 1/(b-a), a<x<b; 0, others。
- 泊松分布：
  - 离散型随机变量，，参数λ是单位时间(或单位面积)内随机事件的平均发生次数。泊松分布适合于描述单位时间内随机事件发生的次数。
  - 举例：医院平均每小时出生6个新生儿，想知道在起飞前一小时是否有机会见到10个或更多的婴儿。预测这段时间来的客户数量。
- 二项分布：离散型随机变量，n次独立重复的伯努利试验中，设每次试验中事件A发生的概率为p。n 次试验中事件 A 恰好发生 k 次，这个离散概率分布。 $P\{X=k\}=C_n^kp^k(1-p)^{n-k}, C_n^k=\frac{n!}{k!(n-k)!}$
参数估计：无偏性、有效性、相合性：
- 无偏性：参数估计的数学期望 $E(\hat\theta)=\theta$ 。
- 有效性：（已经无偏）若对于任意 θ∈Θ，有 $D(\hat\theta_1)\le D(\hat\theta_2)$
- 相合性 / 一致性：在大样本条件下，估计值→真实值，n → ∞ 时 $\hat\theta$ 依概率收敛于 θ，$lim_{n\rarr\infin}P\{|\hat\theta-\theta|\le\epsilon\}=1$ 。
参数估计：点估计 & 区间估计：
- 区间估计：在推断总体参数时，还要估计出总体参数的一个区间，并同时给出总体参数落在这一区间的概率的保证。
- 点估计：常用方法有矩估计法、最大似然估计法。提供一个具体的数值估计，不能提供估计参数的估计误差大小。
参数估计：矩估计，最大似然估计，最小二乘法，贝叶斯估计。
- 矩估计：
  - 矩：μl = E(X^l) = ∫ x^l * f(x|θ)。
  - 令想估计的矩 = 样本矩的平均值。
  - 一阶样本原点矩期望，二阶样本中心矩方差。
- 最大似然估计：
  - 将样本的联合概率密度函数看成 $\theta$ 的函数，用 L( $\theta$ ， $x_{1},....,x_{n}$ ) 表示，简记为 L(θ)。
  - L( $\theta$ ) = L( $\theta$ ， $x_{1},....,x_{n}$ ) = p( $x_{1}$ ； $\theta$ ) p( $x_{2}$ ； $\theta$ )...p( $x_{n}$ ; $\theta$ )，取令 L(θ) 最大的 θ 值，可能会乘法 → 加法 logL。
- 贝叶斯学派：最大后验估计（结果里会多一堆超参数，这是先验在起作用）。
假设检验：
- 一般会提出一对对立的假设，原假设 H0，备择假设 H1。
- 第一类错误 α：拒绝 H0 且 H0 为真，太激进；第二类错误 β：接收 H0 且 H0 为假，太保守。
- 保护原假设的原则：先限制犯第Ⅰ类错误的概率不超过显著性水平 α，在此条件下，考虑如何使犯第 Ⅱ 类错误的概率 β 尽可能小。
- 正态分布的应用：假设分布为正态分布，方便做假设检验。
- 双边检验（温度不能过高也不能过低） & 单边检验（只要不往牛奶里掺水就 ok，牛奶当然越浓越好）。
- p 值检验：计算检验统计量，根据最小显著性水平 p，决定接收 / 拒绝 H0。

机器学习

梯度 & 梯度下降，为什么梯度下降？
- 梯度：多元标量函数想象成山峦，最陡的方向。
- 梯度下降：通用的找局部最优的方法，很多问题性质不够好，没法数学公式一步求得可接受的解，因此为到达最低点，沿最陡下降方向一步一步走。
距离度量方式：【】
- 马氏距离：
- 曼哈顿距离：
- 欧式距离：
- 余弦距离：
- 相关系数：
MSE 为什么是 Σ(yi-y)² 而不是立方？
- 欧几里得距离具有旋转不变性，即不管坐标轴怎么转，某点到原点的距离都不变。L3 norm 没有。
最小二乘法。
- 最小二乘法是解决曲线拟合问题最常用的方法。其基本思路是：令
  
  其中，
  
  是事先选定的一组线性无关的函数，
  
  是待定系数
  
  ，拟合准则是使
  
  与
  
  的距离
  
  的平方和最小，称为最小二乘准则。
什么是 SVD 分解。
- 主对角线上每个元素都称为奇异值 singular value。U V 都是酉矩阵（转置矩阵 = 逆矩阵）。
- 应用：
  - PCA：对数据的协方差矩阵进行 SVD 分解 $C_{n\times n}=V_{n\times n}\Sigma_{n\times n}V_{n\times n}^{T}$ ，根据特征值大小，取前 r 列特征向量和特征值，用列特征向量进行降维 $\bar{M}_{m\times r}= M_{m\times n} * V_{n\times r}$ 。
  - 推荐系统：
    - 对比用户的相似性，将用户A喜欢的手机品牌推送给与A相似但是手机品牌喜好未知的用户B。
    - 用户-商品打分矩阵M（即行代表不同的商品，列代表不同的用户， $M_{ij}$ 代表第 i 个用户对第 j 个商品的喜欢程度）分解成 $M_{m\times n}=U_{m\times m}\Sigma_{m\times n}V_{n\times n}^{T}$ 。其中 U 代表了用户的特征矩阵，V 代表了商品的特征矩阵，为了降低噪声影响会只取前 r 列。
    - 当一个新用户数据进来 $m_{1\times n}$ （对某些商品的喜好程度未知，未知的列设为0）后，会与对角矩阵商品特征矩阵相乘，得到它的用户特征： $u_{1\times r}=m_{1\times n}V_{n\times r}\Sigma_{r\times r}$ , 然后将这个新的用户特征 u 与老用户特征矩阵 U 每一行比对（比如用欧式距离)，距离最近的那一行即是最相似的老用户。
什么是 LDA，和 SVM 的联系与区别？
- 线性判别分析 LDA：
  - 监督学习的降维技术，数据集的每个样本带有类别信息，这点和 PCA 不同，PCA 是不考虑样本类别输出的无监督降维技术。
  - 思想：投影后类内方差最小，类间方差最大。我们要把数据往低维度上投影，希望每一种类别数据的投影点尽可能接近，而不同类别数据的类别中心之间，距离尽可能大。一般使用 SVD 分解。
  - LDA 不适合对非高斯分布样本进行降维，PCA 也有这个问题。
- 支持向量机 SVM：
  - 二分类技术，分类超平面跟两类数据的间隔要尽可能大（即远离两边数据）
  - 先将数据变成线性可分的，再构造出最优分类超平面；通过选择一个核函数 K ，将低维非线性数据映射到高维空间中。
- 或许可以让 LDA 当作 SVM 的核函数？不过听说 SVM 也不怕高维度呀，难道是怕过拟合吗？
什么是 Normal Equation 正规方程标准方程？
- https://blog.csdn.net/jingyi130705008/article/details/78866757
- 线性回归中，为了求得 cost function 最小的参数值θ，我们一般采用梯度下降法，但是当训练样本较小时（不超过千数量级），采用 Normal Equation 进行求解更好。（不能用于不可逆矩阵）
GMM 高斯混合模型：
- 聚类算法，用于表示可聚类为多个高斯分布的任何数据集。
- GMM 由两部分组成：均值向量 (μ) 和协方差矩阵 (Σ)。
卷积网络：
- 输入层、卷积层，ReLU层、池化（Pooling）层、全连接层。
循环神经网络 RNN，LSTM，TCN：
- RNN：
- LSTM：RNN 的问题：不适用于长期记忆。基本思想：
  - 引入“门运算”，遗忘门输入门，选择性记忆。
  - 引入“门运算”，将梯度中的累乘变为累加，解决梯度消失问题
- TCN：RNN 的问题：只能串行计算，要保存所有中间变量，因此非常计算密集。因果卷积 && 空洞 dilated 卷积 + 残差模块。

复变函数

复变函数求导：
- 极限 lim {Δz→0} [f(z0+Δz) - f(z0)] / Δz 存在，则可导，lim = 导数。
- Δz 的方向是任意的，任意方向都要存在。
解析，解析函数，奇点：
- 函数在某点解析：如果在 z0 及 z0 的邻域里处处可导，则在 z0 解析。
- 解析函数：如果在区域 D 上处处解析，则是解析函数。
- 某点解析 => 某点可导，区域解析 <=> 区域可导。
- 奇点：f 在 z0 不解析。广义上奇点指未定义的点（如除零）
  - 孤立奇点：但 z0 的任意邻域里总有 f 的解析点。
- 性质：单连通域内环路积分 = 0，复连通域内广义环路积分（即包括内外边界，内边界取顺时针为正）= 0，导函数仍然是解析函数。
Cauchy-Riemann 条件：
- 某点可导充要条件：f = u + iv，该点 u v 可微，且偏导数满足 C-R 方程（ux = vy, uy = -vx）。导数 f' = ux + ivx = vy - iuy
- 区域解析充要条件：区域内 u v 可微，且偏导数满足 C-R 方程（ux = vy, uy = -vx）。
复变函数积分：
- 柯西积分定理 / 积分基本定理：解析函数积分与路径无关，环路积分 = 0。
- 柯西积分公式： $f(z_0)=\frac{1}{2\pi i}\oint_L\frac{f(z)}{z-z_0}dz$
- 高阶导数公式（柯西积分公式两边对 z0 求导）： $f'(z_0)=\frac{1}{2\pi i}\oint_L\frac{f(z)}{(z-z_0)^2}dz$ $f''(z_0)=\frac{1\times2}{2\pi i}\oint_L\frac{f(z)}{(z-z_0)^3}dz$ $f^{(n)}(z_0)=\frac{n!}{2\pi i}\oint_L\frac{f(z)}{(z-z_0)^{n+1}}dz$
Abel 定理：
- 绝对收敛： $\sum|z_n|=\sum\sqrt{a_n^2+b_n^2}$ 收敛，可由实部虚部级数 |a| |b| 绝对收敛推出。
- （收敛但不绝对收敛：Σ 1/n）
- 幂级数在 x0 处收敛，则半径＜x0 都绝对收敛；在 x1 出发散，则半径＞x1 都发散。
洛朗级数 Laurent：
- 对于一片收敛的区域，可以直接 taylor 级数： $f(z)=\sum_{n=0}^\infty c_n(z-z_0)^n$ ， $c_k=\frac{f^{(k)}(z_0)}{k!}=\frac{1}{2\pi i}\oint_C\frac{f(\zeta)}{(\zeta-z_0)^{k+1}}d\zeta$ 。
- 洛朗级数：解析环域：k 也可以 -1 ~ -n。
- 解析部分：n ≥ 0；主要部分：n＜0。无穷远处逆号。
留数：
- 留数定理：环路积分 = 环路围的那几个奇点绕一周积分 = 2Πi Σ 奇点留数。
- 留数：孤立奇点 z0 处 laurent 展开， $\mathrm{Res}[f(z),z_0]=c_{-1}=\frac1{2\pi i}\oint_Cf(z)dz\\$
- 无穷远点的留数：如果 |z| > R 都解析，则无穷远点是孤立奇点， $\text{Res}[f(z),\infty]=-c_{-1}=\frac1{2\pi i}\oint_{C^-}f(z)dz\\$
- 求无穷远留数不想积分： $\text{Res}[f(z),\infty]=-\text{Res}\left[\frac{1}{z^2}f\left(\frac{1}{z}\right),0\right]$
- 扩展留数定理，所有奇点的留数之和为零（包括无穷远）。
奇点分类：
- 可去奇点：比如 sin z / z，只要定义得当就完全解析，Res = 0
- 极点：负幂项有限（不会高过 -m 次）， $f(z)$ 在某个点 $z_0$ 是孤立奇点，但是 $(z-z_0)^m f(z)$ 在 $z_0$ 可能就变成了可去奇点。 $\lim_{z\to z_0}f(z)=\infty$ 。 $\text{Res}[f(z),z_0]=\frac{1}{(m-1)!}\lim_{z\to z_0}\frac{d^{m-1}}{dz^{m-1}}((z-z_0)^mf(z))$
- 本性奇点：负幂项无穷多。

其他

数学相关课程中，最有难度的一个知识点是什么。
- 积分不费解，因为物理竞赛。矩阵乘法 → 秩 → 特征值特征向量费解。
高斯白噪声：
- gaussian：幅度 / 瞬时值分布服从高斯分布。
- white：它的二阶矩不相关，一阶矩为常数，功率谱密度（在较宽的频率范围内）服从均匀分布，是指先后信号在时间上的相关性。
- 分析信道加性噪声的理想模型，热噪声（通信中的主要噪声源）属于高斯白噪声。
Markov 性，Markov 过程：
- 给定现在状态及所有过去状态，其未来状态的条件概率分布仅依赖于当前状态，与过去状态（即该过程的历史路径）是条件独立的。
- Markov 过程：具有 Markov 性质的过程。
- 时间状态都是离散的马尔可夫过程称为马尔可夫链。
什么是 Convex：
- 凸函数：一元： $f\left ( tx_{1}+\left ( 1-t \right )x_{2} \right )\leq tf\left ( x_{1} \right )+\left ( 1-t \right )fx_{2}$
- 函数值的平均 ≥ 平均值的函数下凸。多元函数定义类似。凸优化问题，局部最优解是全局最优解。
- 判定：二阶导数 ≥ 0，多元函数如果 Hessian 矩阵半正定矩阵，则凸函数。
什么是李雅普诺夫稳定性（自控，不太会）。
什么是丰度（不知道）。
投影算子的概念（实变函数，不太会）。