评价机器学习模型的思路-526互联

这个标题不够严谨，不同业务领域下的模型，没有可比性。因此，应当增加一定的限定条件，才能对机器学习的模型进行比较。

当前可行的限定条件，如下：

模型
- 模型结构
- 参数的数量
训练算法
训练时长
数据
- 训练数据集
- 验证数据集
- 数据质量
基础平台
- 训练平台
  - 硬件
  - 软件
- 运行平台
  - 硬件
  - 软件

在给定上述条件时，可观察的指标有：

模型自身的特征
- 模型占用的硬盘空间
- 模型占用的内存空间
资源类指标
- CPU使用量
- 内存使用量
- GPU使用量
- GPU内存使用量
模型的性能
- 准确性，和业务领域、模型强相关。
- 时间开销，这里主要指使用模型执行推断操作时的时间开销，不包括推断框架自身运行时产生的时间开销。

设计训练试验时，梳理并逐步完善对模型性能存在影响在因素，在试验过程中，逐步积累相关因素与模型性能的相关性。
比如可行的操作方法，即一个批次的试验只变化其中一个因子，而保持其它因子不变，保证相同批次内的试验具备可比性。
这在一定程度上可以用于分析限定条件和观察指标之间的相关性，指导后续的工作。
考虑到机器学习方法的复杂性，数据量和质量等等因素，前述方法在实际操作中，存在相当的变数，可能需要投入大量的人力、设备、时间来反复验证。