Note：[ wechat：Y466551 | 可加勿骚扰，付费咨询 ]

论文信息

论文标题：Better Fine-Tuning via Instance Weighting for Text Classification
论文作者：
论文来源：2021 ACL
论文地址：download
论文代码：download
视屏讲解：click

1 介绍

　　出发点：域适应一类方法是对预先训练好的模型参数进行微调，以往的微调工作主要集中在预训练阶段，研究如何预训练一组最能帮助目标任务的参数；

　　方法简介：本文提出了一种基于实例加权的微调（IW-Fit）方法，该方法修正了微调阶段，以提高目标域的最终性能。IW-Fit在每个微调阶段动态调整实例权重，以实现两个目标： 1)有效地识别和学习目标域的具体知识；2)很好地保持源域和目标域之间的共享知识。在IW-Fit中使用的设计的实例加权度量是与模型无关的，这对于一般的基于DNN的分类器很容易实现。实验结果表明，IW-Fit可以持续提高目标域的分类精度。

　　贡献：

- 提出了基于实例加权的微调（IWFit），这是一种应用于给定一组预先训练好的参数的微调阶段的方法；
- 设计了两个模型不可知的指标来计算IW-Fit中使用的权重及其混合变量的权重；
- 进行了大量的实验来验证IW-Fit可以在几个基线上持续地提高目标域的分类精度；

2 方法

　　IW-Fit 中设计的加权度量应该实现两个目标：

1. 有效地识别和学习目标领域的特定知识；
2. 很好地保持源域和目标域之间的共享知识；

　　分类损失：

　　　　$f\left(\mathbf{y}, g_{\boldsymbol{\theta}}(\mathbf{x})\right)=-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x}) \quad\quad(1)$

　　在早期的微调时期，参数接近于从尚未适应目标域的预训练分类器中获得的参数。一个实例有着较大的预测损失意味着预先训练好的分类器不能很好地拟合它，并且它可能包含更多的目标知识。因此，如果我们为这些实例分配了较大的权重，那么该模型将更加重视学习目标领域上的特定知识。这促使我们使用预测损失作为我们的第一个指标。

　　经过多次微调后，分类器可能会捕获更多的目标特定知识，而一些目标实例往往有很小的预测损失。为了使算法能够一致地区分这些实例，提出了另一个度量标准——历史预测损失的方差。对于具有特定目标知识的实例，它通常从很大的预测损失开始。如果它现在是一个很小的梯度，仍然可以通过计算其沿着微调时期的历史预测损失的方差来识别它。

　　另一方面，对于类似于源域的实例，它通常从早期时期的一个很小的预测损失开始。如果这样的实例在后期的微调时期受到巨大的损失，那么我们的微调分类器很可能会被具有目标特定知识的实例过度拟合。在这种情况下，这些实例会产生较大的预测损失以及较大的预测损失方差。给它们分配大的权重可以平衡我们的模型来实现第二个目标。

预测损失

　　$\text{Eq.1}$ 中的预测损失可作为分配实例权重的第一个度量值：

　　　　$w=\frac{1}{\tau}\left(-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x})+\epsilon\right) \quad\quad(2)$

　　其中，$\epsilon$ 是一个平滑常数，用于防止小损失的实例的权重为零，$\tau$ 是一个归一化常数，使小批量的权重的平均值等于 $1$ ；

历史预测损失方差

　　在 epoch 等于 $t$ 阶段，假设 $h^{t-1}= \left[f^{1}, \ldots, f^{t-1}\right]$ 是包含预测损失 $f=-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x}) $ 的历史项的向量；

　　第二个度量可以根据预测损失的方差来计算：

　　　　$w=\frac{1}{\tau}\left(s t d\left(h^{t-1}\right)+\epsilon\right) \quad\quad(3)$

　　其中，$\operatorname{std}\left(h^{t-1}\right)$ 是估计的标准推导加上它在 $h^{t-1}$ 中的置信区间：

　　　　$\operatorname{std}\left(h^{t-1}\right)=\sqrt{\varsigma\left(h^{t-1}\right)+\frac{\varsigma^{2}\left(h^{t-1}\right)}{\left|h^{t-1}\right|-1}} \quad\quad(4)$

　　其中，$\varsigma^{2}\left(h^{t-1}\right)$ 为预测损失的方差，$\left|h^{t-1}\right|$ 为存储的预测损失数；

加权度量的混合变量

　　如上所述，预测损失在早期微调时期更有效，历史预测损失的方差应在一些后期使用。

　　因此，进一步提出了两个混合变体来结合这两个加权指标：

硬混合

　　前 $\eta$ 个 epoch 采用预测损失，然后切换到使用预测损失的方差：

　　　　$w=\frac{1}{\tau}\left[\mathbf{I}_{t \leq \eta} \cdot\left(-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x})\right)+\mathbf{I}_{t>\eta} \cdot \operatorname{std}\left(h^{t-1}\right)+\epsilon\right] \quad\quad(5)$

　　其中，当 $A$ 为真时，指标函数 $\mathbf{I}_{A}$ 等于 $1$，否则为 $0$；

软混合

　　在硬混合中，超参数 $\eta$ 需要仔细调整，并且这两个指标在每个微调时期都是互斥的。为了探索这两个指标的一个潜在的更灵活的组合，建议使用一种软混合变体作为：

　　　　$w=\frac{1}{\tau}\left[\beta \cdot\left(-\mathbf{y}^{T} \log p(\mathbf{y} \mid \mathbf{x})\right)+(1-\beta) \cdot \operatorname{std}\left(h^{t-1}\right)+\epsilon\right] \quad\quad(6)$

　　其中，$\beta$ 是一个在微调时期从 $1$ 线性下降到 $0$ 的平衡比。实验结果表明，在所有比较的微调方法中，采用软混合加权度量的信息量拟合方法通常表现最好。