维度灾难及超参数寻优

发布时间 2023-05-23 17:29:39作者: 澳大利亚树袋熊

一、维度灾难

维度灾难指的是当样本维度过高时,发生过拟合,验证集结果变差。

样本维度越高,能够提供的信息就越多,但是其中有可能会提供一些无关的信息。

而且随着维度越高,样本集在高维空间就会出现稀疏性,简单来说,就是需要更多的样本来填补这个空间。

上图所示,纬度高确实能带来一定提升,但是如果过高,就会发生维度灾难。

解决维度灾难的方法是降维或者采用一些泛化能力强的分类器,如线性分类器等。

二、超参数寻优

如何在超参数中寻找一组合适的组合,改善模型性能是每位炼丹师的目标。

我之前一直在思考使用正交实验、极差分析的方法来进行寻优,因为这个思路比较简单,肯定会有人做,结果我发现了这篇博客:

(40条消息) 机器学习调参——通过正交实验进行机器学习超参数调整的尝试_CubDonkey的博客-CSDN博客

相交于网格搜索、随机搜索要强,但是这种方法仍然要使用较多的实验组合,比较浪费时间。

比较受推崇的是贝叶斯优化:

贝叶斯优化基本原理总结 - 知乎 (zhihu.com)

贝叶斯优化/Bayesian Optimization - 知乎 (zhihu.com)