文献笔记

基础

对待复杂问题可以先考虑极限情形，从特殊到一般（一维，对角，边界）；
对同一问题可切换视角从不同角度进行考虑加深理解（如数学、统计、信息论等）；
注意通过添项、配方等方式整体换元简化问题（如利用正交性连乘转连加）；
函数零点分布判断：驻点（极值点或鞍点）\(f^\prime(x)=0\)
- 各驻点分割区间，求各驻点处函数值后依据 \(f^\prime(x)\) 符号画函数草图
- \(f(x)\) 为多项式时可根据驻点函数值符号判断区间零点存在性
分析学最基本的概念是极限（\(x_a\rightarrow y\)：\(x_a\) 终在 \(y\) 的任一邻域，拓扑性质），（方向）（偏）导数、积分、级数均由其定义；
问题维数过高时可考虑投影到随机低维子空间取平均（样本期望）来近似求解；
处理复杂的矩阵表达式时需注意标量整体可任意换序的良好性质；
性能评估一般需要进行多次Monte Carlo模拟增加稳健性，此时除取平均外可生成样本分布图（\(F\) 或 \(p\) ），进而直观比较性能优劣（保留均值）；
控制论核心思想：反馈；
- 处理实际工程问题时需抓住输入输出关系的本质（以目标为导向）
- 实测数据 \(\rightarrow\) 仿真数据 \(\rightarrow\) 性能优化 \(\rightarrow\) 性能评估 \(\rightarrow\) 实际部署
非线性连续方程零点数值求解方法
- 二分法
- 牛顿迭代法（切线法）
- 割线法（弦截法）
- 不动点迭代法（\(L<1\)）

优化

优化问题的基本技巧
- 泰勒展开，如线性化（梯度下降），二次逼近（牛顿法）
- 罚函数（先验正则），如外点法，内点法，精确惩罚法
- 光滑化，如Moreau包络
- 凸松弛，如SDP松弛，二次对偶
凸优化问题（大多多项式时间可解）：在凸集上极小化（全局）凸函数；
- 一般假设（适当）凸函数在未定义处自动取 \(+\infty\)
- 对于 \(C\subset \operatorname{dom} f\)，\(f\) 在 \(C\) 上凸 \(\iff\) \(f\) 限制在 \(C\) 中任意两点连线段上（一元）凸\(\implies \{x=\alpha x_1+(1-\alpha)x_2\mid x_1\in C,x_2\in C, \alpha\in [0,1]\}\subset \operatorname{dom} f\)
- 对于 \(C\subset \operatorname{dom} f\)，\(f+\iota_C\) 为（全局）凸函数 \(\iff\) \(f\) 在 \(C\) 上凸且 \(C\) 是凸集
- 理论上，可以通过延拓可行域外目标函数值为 \(+\infty\) （加示性函数）将仅在凸集上凸的函数极小化问题转化为无约束凸优化问题，此时无法使用外点迭代算法求解
对偶理论
- 局部极小点 \(x^*\) 满足约束品性（规范）\(\implies T_X(x^*)=\mathcal{F}(x^*)\implies\)（存在 \(\lambda^*\) 满足KKT条件）
- 广义KKT条件 \(\implies\)（强对偶，原始对偶最优）
- 强对偶 \(\implies\) （广义KKT条件 \(\iff\) 原始对偶最优）
- 凸优化 \(\implies\) （KKT条件 \(\iff\) 广义KKT条件）
- 广义KKT条件：\((x^*,\lambda^*)\) 满足KKT条件\(\ +\ x^*\) 关于 \(L\) 最小
非凸优化满足某些CQ时KKT条件为局部最优的必要条件，此时理论上有可能遍历所有KKT点获得全局最优（使用整体法转化为低维黑箱优化问题）；
凸优化问题强对偶成立时KKT条件为原始对偶最优的充要条件，有时可解析求解，难以解析求解时至少会剔除大部分明显非最优的解（作为最优性判断准则）；
约束优化等价于minimax双层优化问题，其对偶问题一定是凸问题，二次对偶问题为其最佳凸逼近，约束较少时对偶问题维数较低，往往更易求解；
良好的建模能极大简化问题难度；
- 鲁棒优化可看作多目标优化（精确性、鲁棒性）
- 鲁棒建模时模糊集半径 \(\theta\) 与 \(\lambda\) 有对应关系，可类比Lasso问题中与 \(\theta\) 与 \(\lambda\) 的对应关系
- 约束建模：约束鲁棒性优化精确性；无约束建模：优化精确性与鲁棒性加权和；此时，\(\lambda\) 代表鲁棒性相对于精确性的权重（可正规化消除量纲影响后适当选取 \(\lambda\)）
- 当 \(\theta\) 有较好先验设置时一般只能约束建模，此时需调整 \(\lambda\) 使得约束达到 \(\theta\)，而 \(\lambda,\theta\) 均无较好先验设置时一般进行无约束建模（交叉验证选择 \(\lambda\)）
- 若约束集有直观的几何意义有助于算法设计（投影解析）时也可选择约束建模，需视具体问题的特点灵活选择建模方式
线性规划强对偶不成立 \(\iff\) 原始对偶问题均不可行；
Danskin定理：\(f(x)=\max_{z\in D}\phi(x,z)\quad x\) 凸 \(D\) 紧 \(+\) 连续 \(\implies f^{\prime}(x;y)=\max_{z\in Z(x)}\phi^{\prime}(x,z;y)\)；
分块矩阵求逆、Schur补、SMW求逆公式，S-procedure，Farkas引理；
对于可对角化且特征值全为正值的矩阵的平方根矩阵，有 \((\bm{P}\bm{D}\bm{P}^{-1})^{\frac{1}{2}}=\bm{P}\bm{D}^{\frac{1}{2}}\bm{P}^{-1}\)；
通过引入辅助变量可以将非齐次问题转化为齐次问题，如 QCQP \(\longrightarrow\) HQCQP；
若优化问题可行域扩大（松弛）后最优点仍落在原可行域中，则该最优点为原问题最优点，即“松弛”是紧的；
优化算法不收敛时可考虑添加邻近项，如 \(\frac{L}{2}\lVert x-x_k \rVert^2\)（增加凸性，附近保守迭代）；
对于多变量优化问题，若自变量具有某种“可分离”的形式：固定若干变量可极大简化问题结构，则可使用BCD（分块坐标下降法：固定部分变量关于其余变量求极小）求解这种具有特殊结构的优化问题；特别地，子问题解析时可消元降维；
约束为 \(\min f(x)\geqslant a\) 且积极时等价于 \(f(x)\geqslant a,\forall x\)；
约束不积极时去掉该约束仍与原问题等价，即该约束不起作用；特别地，考虑在简单约束问题上新加约束，若原问题的解不满足新约束，则新问题的解必定关于新加约束积极；
假定有一个智能体(agent)，强化学习定义为智能体在和环境每一次交互中，根据当前的环境的状态(State)，按照一定策略采取行动(Action), 获得回报(Reward)，经过多轮交互后达到终止状态，最大化长期回报。
- 有监督学习是从外部监督者提供的带标注训练集中进行学习，无监督学习是一个典型的寻找未标注数据中隐含结构的过程，强化学习基于和环境交互反馈样本最大化长期回报
- 强化学习要素表示为 \(D=\{\mathbb{S},\mathbb{A},\mathbb{R},\mathbb{P},\gamma\}\)，其中 \(\mathbb{S}\) 表示状态集合空间，\(\mathbb{S}\) 表示动作集合空间，\(\mathbb{R}\) 表示智能体根据状态(State)采取动作(Action)后获得的回报，\(\mathbb{P}\) 表示状态动作转移概率矩阵，\(\gamma\in[0,1]\) 表示回报折扣率
神经网络使用“仿射+激活函数”的多次复合去逼近数据服从的模型函数，其神经网络结构决定复合函数具体结构，给定损失函数（极大似然，最小均方误差等）后使用梯度下降等优化方法优化模型参数；
传统机器学习依赖人工设计特征，并进行特征提取，而深度学习方法依赖神经网络自动提取特征。这也是深度学习被看做黑盒子，可解释性差的原因；

文献创新点

统计推断

信息融合：先验+新息=后验；
- 极大熵原理（信息论角度）：最能代表系统当前知识状态的分布是极大熵分布
处理系统模型不确定性的方法：
- 自适应方法（实时修正模型参数）
- 鲁棒方法（增强模型泛化性）
  - 极大熵原理
  - 分布稳健优化 DRO（Distributionally Robust Optimization）
  - 正则化防止过拟合（Lagrange约束，权重衰减，贝叶斯先验，模型复杂度）
  - 稳健损失函数（大偏差线性误差）
滤波估计：预报+更新（预报与观测的加权融合）；
- 无状态方程模型时可使用ARMA等时间序列方法进行预报，针对特定问题也可替换合理的融合规则
- \(E(x_k\vert y_1,y_2,\cdots,y_{k+M})\quad M<0\) 预报；\(M=0\) 滤波；\(M>0\) 平滑