文献笔记

发布时间 2023-09-14 20:03:10作者: _烟岚云岫

文献笔记

基础

  1. 对待复杂问题可以先考虑极限情形,从特殊到一般(一维,对角,边界);
  2. 对同一问题可切换视角从不同角度进行考虑加深理解(如数学、统计、信息论等);
  3. 注意通过添项、配方等方式整体换元简化问题(如利用正交性连乘转连加);
  4. 函数零点分布判断: 驻点(极值点或鞍点)\(f^\prime(x)=0\)
    • 各驻点分割区间,求各驻点处函数值后依据 \(f^\prime(x)\) 符号画函数草图
    • \(f(x)\) 为多项式时可根据驻点函数值符号判断区间零点存在性
  5. 分析学最基本的概念是极限(\(x_a\rightarrow y\)\(x_a\) 终在 \(y\) 的任一邻域,拓扑性质),(方向)(偏)导数、积分、级数均由其定义;
  6. 问题维数过高时可考虑投影到随机低维子空间取平均(样本期望)来近似求解;
  7. 处理复杂的矩阵表达式时需注意标量整体可任意换序的良好性质;
  8. 性能评估一般需要进行多次Monte Carlo模拟增加稳健性,此时除取平均外可生成样本分布图(\(F\)\(p\) ),进而直观比较性能优劣(保留均值);
  9. 控制论核心思想:反馈;
    • 处理实际工程问题时需抓住输入输出关系的本质(以目标为导向)
    • 实测数据 \(\rightarrow\) 仿真数据 \(\rightarrow\) 性能优化 \(\rightarrow\) 性能评估 \(\rightarrow\) 实际部署
  10. 非线性连续方程零点数值求解方法
    • 二分法
    • 牛顿迭代法(切线法)
    • 割线法(弦截法)
    • 不动点迭代法(\(L<1\)

优化

  1. 优化问题的基本技巧

    • 泰勒展开,如线性化(梯度下降),二次逼近(牛顿法)
    • 罚函数(先验正则),如外点法,内点法,精确惩罚法
    • 光滑化,如Moreau包络
    • 凸松弛,如SDP松弛,二次对偶
  2. 凸优化问题(大多多项式时间可解):在凸集上极小化(全局)凸函数;

    • 一般假设(适当)凸函数在未定义处自动取 \(+\infty\)
    • 对于 \(C\subset \operatorname{dom} f\)\(f\)\(C\) 上凸 \(\iff\) \(f\) 限制在 \(C\) 中任意两点连线段上(一元)凸\(\implies \{x=\alpha x_1+(1-\alpha)x_2\mid x_1\in C,x_2\in C, \alpha\in [0,1]\}\subset \operatorname{dom} f\)
    • 对于 \(C\subset \operatorname{dom} f\)\(f+\iota_C\) 为(全局)凸函数 \(\iff\) \(f\)\(C\) 上凸且 \(C\) 是凸集
    • 理论上,可以通过延拓可行域外目标函数值为 \(+\infty\) (加示性函数)将仅在凸集上凸的函数极小化问题转化为无约束凸优化问题,此时无法使用外点迭代算法求解
  3. 对偶理论

    • 局部极小点 \(x^*\) 满足约束品性(规范)\(\implies T_X(x^*)=\mathcal{F}(x^*)\implies\)(存在 \(\lambda^*\) 满足KKT条件)
    • 广义KKT条件 \(\implies\)(强对偶,原始对偶最优)
    • 强对偶 \(\implies\) (广义KKT条件 \(\iff\) 原始对偶最优)
    • 凸优化 \(\implies\) (KKT条件 \(\iff\) 广义KKT条件)
    • 广义KKT条件:\((x^*,\lambda^*)\) 满足KKT条件\(\ +\ x^*\) 关于 \(L\) 最小
  4. 非凸优化满足某些CQ时KKT条件为局部最优的必要条件,此时理论上有可能遍历所有KKT点获得全局最优(使用整体法转化为低维黑箱优化问题);

  5. 凸优化问题强对偶成立时KKT条件为原始对偶最优的充要条件,有时可解析求解,难以解析求解时至少会剔除大部分明显非最优的解(作为最优性判断准则);

  6. 约束优化等价于minimax双层优化问题,其对偶问题一定是凸问题, 二次对偶问题为其最佳凸逼近,约束较少时对偶问题维数较低,往往更易求解;

  7. 良好的建模能极大简化问题难度;

    • 鲁棒优化可看作多目标优化(精确性、鲁棒性)
    • 鲁棒建模时模糊集半径 \(\theta\)\(\lambda\) 有对应关系,可类比Lasso问题中与 \(\theta\)\(\lambda\) 的对应关系
    • 约束建模:约束鲁棒性优化精确性;无约束建模:优化精确性与鲁棒性加权和;此时,\(\lambda\) 代表鲁棒性相对于精确性的权重(可正规化消除量纲影响后适当选取 \(\lambda\)
    • \(\theta\) 有较好先验设置时一般只能约束建模,此时需调整 \(\lambda\) 使得约束达到 \(\theta\),而 \(\lambda,\theta\) 均无较好先验设置时一般进行无约束建模(交叉验证选择 \(\lambda\)
    • 若约束集有直观的几何意义有助于算法设计(投影解析)时也可选择约束建模,需视具体问题的特点灵活选择建模方式
  8. 线性规划强对偶不成立 \(\iff\) 原始对偶问题均不可行;

  9. Danskin定理:\(f(x)=\max_{z\in D}\phi(x,z)\quad x\)\(D\)\(+\) 连续 \(\implies f^{\prime}(x;y)=\max_{z\in Z(x)}\phi^{\prime}(x,z;y)\)

  10. 分块矩阵求逆、Schur补、SMW求逆公式,S-procedure,Farkas引理;

  11. 对于可对角化且特征值全为正值的矩阵的平方根矩阵,有 \((\bm{P}\bm{D}\bm{P}^{-1})^{\frac{1}{2}}=\bm{P}\bm{D}^{\frac{1}{2}}\bm{P}^{-1}\)

  12. 通过引入辅助变量可以将非齐次问题转化为齐次问题,如 QCQP \(\longrightarrow\) HQCQP;

  13. 若优化问题可行域扩大(松弛)后最优点仍落在原可行域中,则该最优点为原问题最优点,即“松弛”是紧的;

  14. 优化算法不收敛时可考虑添加邻近项,如 \(\frac{L}{2}\lVert x-x_k \rVert^2\)(增加凸性,附近保守迭代);

  15. 对于多变量优化问题,若自变量具有某种“可分离”的形式:固定若干变量可极大简化问题结构,则可使用BCD(分块坐标下降法:固定部分变量关于其余变量求极小)求解这种具有特殊结构的优化问题;特别地,子问题解析时可消元降维;

  16. 约束为 \(\min f(x)\geqslant a\) 且积极时等价于 \(f(x)\geqslant a,\forall x\)

  17. 约束不积极时去掉该约束仍与原问题等价,即该约束不起作用;特别地,考虑在简单约束问题上新加约束,若原问题的解不满足新约束,则新问题的解必定关于新加约束积极;

  18. 假定有一个智能体(agent),强化学习定义为智能体在和环境每一次交互中,根据当前的环境的状态(State),按照一定策略采取行动(Action), 获得回报(Reward),经过多轮交互后达到终止状态,最大化长期回报。

    • 有监督学习是从外部监督者提供的带标注训练集中进行学习,无监督学习是一个典型的寻找未标注数据中隐含结构的过程,强化学习基于和环境交互反馈样本最大化长期回报
    • 强化学习要素表示为 \(D=\{\mathbb{S},\mathbb{A},\mathbb{R},\mathbb{P},\gamma\}\),其中 \(\mathbb{S}\) 表示状态集合空间,\(\mathbb{S}\) 表示动作集合空间,\(\mathbb{R}\) 表示智能体根据状态(State)采取动作(Action)后获得的回报,\(\mathbb{P}\) 表示状态动作转移概率矩阵,\(\gamma\in[0,1]\) 表示回报折扣率
  19. 神经网络使用“仿射+激活函数”的多次复合去逼近数据服从的模型函数,其神经网络结构决定复合函数具体结构,给定损失函数(极大似然,最小均方误差等)后使用梯度下降等优化方法优化模型参数;

  20. 传统机器学习依赖人工设计特征,并进行特征提取,而深度学习方法依赖神经网络自动提取特征。这也是深度学习被看做黑盒子,可解释性差的原因;

文献创新点

  1. 1

统计推断

  1. 信息融合:先验+新息=后验;
    • 极大熵原理(信息论角度):最能代表系统当前知识状态的分布是极大熵分布
  2. 处理系统模型不确定性的方法:
    • 自适应方法(实时修正模型参数)
    • 鲁棒方法 (增强模型泛化性)
      • 极大熵原理
      • 分布稳健优化 DRO(Distributionally Robust Optimization)
      • 正则化防止过拟合(Lagrange约束,权重衰减,贝叶斯先验,模型复杂度)
      • 稳健损失函数(大偏差线性误差)
  3. 滤波估计:预报+更新(预报与观测的加权融合);
    • 无状态方程模型时可使用ARMA等时间序列方法进行预报,针对特定问题也可替换合理的融合规则
    • \(E(x_k\vert y_1,y_2,\cdots,y_{k+M})\quad M<0\) 预报;\(M=0\) 滤波;\(M>0\) 平滑

文献创新点

  1. c