Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference-526互联

Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference

论文全程及链接：《Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference Timo》

大家思考一个问题，BERT在预训练时学习到的知识或者说参数我们在fine-tunning的时候都有用到吗？

答案是不是的。大家看下图，BERT的预训练其中一个任务是MLM，就是去预测被【MASK】掉的token，采用的是拿bert的最后一个encoder（base版本，就是第12层的encoder的输出，也即下图左图蓝色框）作为输入，然后接全连接层，做一个全词表的softmax分类（这部分就是左图的红色框）。但在fine tuning的时候，我们是把MLM任务的全连接层抛弃掉，在最后一层encoder后接新的初始化层来做具体的下游任务。

想一个问题，能不能通过某些巧妙的设计，把MLM层学习到的参数也利用上？

答案当然是可以的，请继续往下看。

现在举一个二分类的例子，输入一条汽车论坛的评论，输出这个评论是属于【积极】or【消极】。但问题是现在我每个类别只有10个labeled数据，1K条unlabeled数据。怎么训练model？

直接做有监督训练?样本量太少，会过拟合。应该优先采用半监督学习的方法，如UDA、MixText这种，而PET采用的是另外一种巧妙的设计思想。

现在通过改造输入，如下图，

一个样例是"保养贵，配件贵，小毛病多，还有烧机油风险"。定义一个pattern函数，把它转变成以下形式"保养贵，配件贵，小毛病多，还有烧机油风险。真__!"。

这里定义一个verblizer作为映射函数，把label【积极】映射为好，把label【消极】映射为差。然后model对下划线__部分进行预测。BERT预训练时MLM任务是预测整个词表，而这里把词表限定在{好，差}，cross entropy交叉熵损失训练模型。预测时，假如预测出好，即这个样例预测label就为积极，预测出差，这个样例就是消极。

这样做的好处是，BERT预训练时的MLM层的参数能利用上。而且，即使model没有进行fine tunning，这个model其实就会含有一定的准确率！想想，根据语义来说，没可能预测出 "保养贵，配件贵，小毛病多，还有烧机油风险。真好!" 比 "保养贵，配件贵，小毛病多，还有烧机油风险。真差!" 的概率还大吧！因为前面一句很明显是语义矛盾的。

上面定义的Pattern和verblizer，就是一个PVP（pattern-verbalizer pairs）。

Auxilliary Language Modeling

由于现在是用MLM做分类任务，所以可以引入无标注数据一起训练！

举个简单的例子，下图样例1是labeled数据，我们利用pattern把它改写后，对__部分做完形填空预测（即MLM任务）。样例2是一个unlabeled数据，我们就不对__部分做预测，而是对被【MASK】做预测。这里的【MASK】可以采用BERT的方法，随机对句子的15%token进行【MASK】。

这样做的好处是，能让model更适应于当前的任务，有点像在预训练模型上继续根据任务的domain和task继续做预训练，然后再做fine-tunning呢？详细的可以看我写的这篇博文。

ZHOU-JC：NLP系列之论文研读：Don't stop pretraining，继续预训练！37 赞同 · 5 评论文章

Combining PVPs

引入一个问题，怎么评价我们的pattern定义得好不好？

举个例子，如下图，我们可以造两个pattern，又可以造两个verblizer。这样，图中所示，其实一共有4个PVP。我们怎么衡量哪一个PVP训练完后在测试集上的效果最好？

答案是我们也不知道，因为我们不能站在上帝视角从一开头就选出最佳的PVP，同样由于是小样本学习，也没有足够的验证集让我们挑选最佳的PVP。既然如此，解决方式就是知识蒸馏。

具体的，我们用20个labeled数据训练4个PVP模型，然后拿这四个PVP模型对1K条unlabeled数据进行预测，预测的结果用下式进行平均。

这里的

这就是在做知识的蒸馏。何谓知识的蒸馏？经过这样处理后，噪声减少了，利用多个PVP平均的思想把某些本来单个PVP预测偏差比较大的进行平均后修正。

这样子，利用训练好的PVPs对所有1K条unlabeled数据打上soft label，再用这1K条打上软标签的数据进行传统的有监督训练，训练完的model应用于下游任务的model。注意哦，这里就可以用轻量的模型来做fine tuning了哦，因为从20条labeled数据扩充到1K条有带有soft label的数据，labeled数据量大大增加，这时候轻量级的模型也能取得不错的结果，而且轻量模型对轻量部署、高并发等场景更加友好。

下图就是所有的流程，再总结一下步骤就是

第一步：先定义PVPs，然后对每个PVP用labeled据进行单独的训练，该步可以加入上面提到的Auxiliary Language Modeling一起训练；
第二步：用训练好的PVPs，对unlabled数据进行预测，并知识蒸馏，得到大量的soft label；
第三步：用第二步得到的带有soft label的data，用传统的fine tuning方法训练model。

IPET

在每个PVP训练的过程中，互相之间是没有耦合的，就是没有互相交换信息，IPET的意思就是想通过迭代，不断扩充上面训练PVP的数据集。

这里简单举个例子，现在有20个labeled数据，1K个unlabeled数据，定义5个PVP，第一轮，利用20个labeled数据分别训练PVP，第二轮，用第2~4个PVP来预测这1K unlabeled数据，然后选一些模型预测概率比较高的加入到第一个PVP的训练集上，同样用第1、3、4、5个PVP来训练这1K条，然后也将这部分加入到第2个PVP的训练集中，然后再训练一轮，训练后，重复，这样每一轮每个PVP的训练样本不断增多，而且PVP之间的信息也发生了交互。

实验

分析

Combining PVPs

作者发现不同PVP之间可能有很大的性能差别，如下图min就是最差的PVP，max就是最好的PVP，可以观察到它们之间的差别就很大。但是又不能站在上帝视角从一开始就选择最好的PVP，所以办法就是做commind PVPs，即上面所提到的知识蒸馏，而且发现蒸馏后会比采用单个最好的PVP效果还要好，并且发现uniform和weighted两个方法效果差不多。

Auxiliary Language Modeling

labeled数据越少，auxiliary task的提升效果越明显。

Iterative PER

iPET的效果，因为iPET是迭代多轮，每一轮每个PVP的训练集都会增大，从图可以看到每一轮的模型效果都是越来越好的。

In-Domain Pretraining

这里讨论了一个问题：PET效果比有监督训练好，是不是因为PET在大量无标签上打上软标签，扩大了有标签数据集？然后作者做了一个实验，有监督训练时，先在所有数据集上进行继续预训练（这一步作者认为相当于把无标签数据也加进来了），然后再fine funing。实验结果表明，即使这样，有监督效果也离PET有一定距离。

不过这里想略微吐槽：还可以这样来做比较的？感觉都不太公平hh。

参考：https://zhuanlan.zhihu.com/p/375934846

classification exploiting questions inference

exploiting

questions

extraction exploiting practical response

computation exploiting learning networks

recommendation session-based information exploiting

interactions exploiting high-order improving

inference

neighborhood source-free exploiting adaptation

exploiting cdeepfuzz backdoors naturally