机器翻译 | Understanding Back-Translation at Scale论文翻译-526互联

题目

大规模理解反向翻译

摘要

在并行训练语料库中增加目标语言句子的反译，是提高单语数据神经机器翻译的有效方法。这项工作拓宽了对反翻译的理解，并研究了一些生成合成源句的方法。我们发现，除了资源贫乏之外，通过采样或带噪波束输出获得的反向平移是最有效的。我们的分析表明，采样或有噪声的合成数据比波束搜索或贪婪搜索产生的数据提供了更强的训练信号。我们还比较了合成数据与真实文本的比较，并研究了各种域效应。最后，我们扩展到数亿个单语句子，并在WMT的14个英语-德语测试集上实现了35个BLEU的新水平。

1、介绍

机器翻译依赖于大型平行语料库的统计，即源语言和目标语言成对句子的数据集。然而，bittext是有限的，并且有大量的单语数据可用。传统上，单语数据被用于训练语言模型，从而提高了统计机器翻译的流畅性(Koehn, 2010)。

在神经机器翻译(NMT;Bahdanau et al. 2015;Gehring et al. 2017;V aswani等人，2017)，已经有大量的工作来改进单语数据模型，包括语言模型融合(Gulcehre等人，2015年，2017年)，反向翻译(Sennrich等人，2016a)和双重学习(Cheng等人，2016年;He et al.， 2016a)。这些方法有不同的优点，可以结合起来达到高精度(Hassan et al.， 2018)。

我们专注于反向翻译(BT)，它在半监督设置中运行，其中目标语言的双语和单语数据都是可用的。反向翻译首先在并行数据上训练一个中间系统，该系统用于将目标单语数据翻译成源语言。结果是一个平行语料库，其中源端是合成的机器翻译输出，而目标端是人类编写的真实文本。然后，将合成的平行语料库简单地添加到真实的文本中，以训练将源语言翻译为目标语言的最终系统。虽然简单，但该方法已被证明有助于基于短语的翻译(Bojar和Tamchyna, 2011)， NMT (Sennrich等人，2016a;Poncelas等人，2018)以及无监督MT (Lample等人，2018a)。

在本文中，我们通过在文本中添加数亿个反向翻译句子来大规模地研究神经机器翻译的反翻译。我们的实验是基于在WMT比赛的公共文本上训练的强基线模型。我们扩展了之前的分析(Sennrich et al.， 2016a;Poncelas等人，2018)通过几种方式进行反翻译。我们对生成合成源句子的不同方法进行了全面分析，并表明这种选择很重要:从模型分布或噪声束输出中采样优于通常使用的纯束搜索，在几个测试集中平均高出1.7 BLEU。我们的分析表明，基于采样和噪声波束搜索的合成数据比基于argmax推理的合成数据提供了更强的训练信号。我们还研究了如何将添加合成数据与在受控设置中添加真实文本进行比较，并令人惊讶地发现合成数据有时可以匹配真实文本的准确性。我们的最佳设置仅依靠公开的WMT bittext和2.26亿个单语句子，在WMT’14英德测试集上实现了35个BLEU。这比DeepL系统高出1.7 BLEU，后者在大量高质量的非基准数据上进行训练。在WMT ' 14英语-法语中，我们达到了45.6 BLEU。

2、相关工作

本节描述了神经网络和半监督机器翻译在机器翻译方面的前期工作。

2.1、神经机器翻译

我们建立在神经机器翻译的基础上，这是一个典型的带有编码器/解码器架构的神经网络。编码器推断源句子的连续空间表示，而解码器是一个以编码器输出为条件的神经语言模型。两个模型的参数是联合学习的，以便在给定平行语料库中相应的源句子的情况下，最大化目标句子的似然(Sutskever et al.， 2014;Cho et al.， 2014)。在推理时，从左到右解码生成目标句子。

为了提高效率和/或有效性，已经提出了不同的神经结构。这包括循环网络(Sutskever等人，2014;Bahdanau et al.， 2015;Luong等人，2015)，卷积网络(Kalchbrenner等人，2016;Gehring et al.， 2017;Kaiser等人，2017)和 transformer 网络(Vaswani等人，2017)。最近的工作依赖于注意机制，其中编码器产生一系列向量，对于每个目标标记，解码器通过编码器向量的上下文相关加权和来关注源的最相关部分(Bahdanau等人，2015;Luong等人，2015)。注意力已经通过多跳注意(Gehring等人，2017)、自注意(V aswani等人，2017;Paulus等人，2018)和多头注意力(V aswani等人，2017)。我们使用 transformer 架构(Vaswani et al.， 2017)。

2.2、Semi-supervised NMT

自早期IBM模型以来，单语目标数据已被用于提高机器翻译的流畅性(Brown et al.， 1990)。在基于短语的系统中，目标语言中的语言模型(LM)在解码过程中提高了流畅输出的分数(Koehn et al.， 2003;Brants et al.， 2007)。类似的策略可以应用于NMT (He et al.， 2016b)。除了在解码过程中提高准确性之外，神经LM和NMT还可以从更深层次的集成中受益，例如通过结合两个模型的隐藏状态(Gulcehre等人，2017)。神经架构还允许机器学习和目标侧机器学习之间的多任务学习和参数共享(Domhan和Hieber, 2017)。

反向翻译(BT)是利用单语数据的一种替代方法。BT的应用简单易行，不需要对机器翻译训练算法进行修改。它需要训练一个目标到源系统，以便从单语目标数据生成额外的合成并行数据。该数据补充了人类文本，以训练所需的源到目标系统。BT已经较早地应用于短语库系统(Bojar和Tamchyna, 2011)。对于这些系统，英国电信还成功地利用单语言数据进行领域适应(Bertoldi和Federico, 2009;Lambert et al.， 2011)。最近，BT已被证明对NMT有益(Sennrich et al.， 2016a;Poncelas et al.， 2018)。研究发现，当并行数据稀缺时，它特别有用(Karakanta et al.， 2017)。

Currey等人(2017)表明，低资源语言对也可以通过合成数据得到改善，其中源数据只是单语目标数据的副本。与我们的工作同时，Imamura等人(2018)表明，采样合成源比波束搜索更有效。具体来说，他们为每个目标采样多个源，而我们只抽取一个样本，选择在更多的目标句子上进行训练。Hoang等人(2018)和Cotterell和Kreutzer(2018)提出了一个迭代过程，该过程不断提高反翻译和最终系统的质量。Niu等人(2018)对一个多语言模型进行了实验，该模型既可以进行正向翻译，也可以进行反向翻译，该模型使用新的合成数据进行持续训练。

也有使用源端单语数据的工作(Zhang和Zong, 2016)。Cheng et al. (2016);他等人(2016a);Xia等人(2017)展示了如何通过将反向翻译扩展到双重学习来利用两种语言的单语文本:当联合训练源到目标和目标到源模型时，可以在两个方向上使用反向翻译并执行多轮BT。类似的想法也应用于无监督NMT (Lample等人，2018a,b)。除了单语数据，还引入了各种方法来从其他语言对的并行数据中获益(Johnson等人，2017;Firat等，2016a,b;Ha et al.， 2016;顾等人，2018)。

数据增强是计算机视觉中的一项成熟技术，其中标记的数据集被裁剪或旋转的输入图像补充。最近，生成对抗网络(gan)已经成功地用于相同的目的(Antoniou等人，2017;Perez和Wang, 2017)以及学习图像变换分布的模型(Hauberg等人，2016)。

3、生成合成源

反翻译通常使用束搜索(Sennrich等人，2016a)或贪婪搜索(Lample等人，2018a,b)来生成合成源句子。两者都是识别最大后验(MAP)输出的近似算法，即给定输入的估计概率最大的句子。Beam通常能够成功地找到高概率输出(Ott等人，2018a)。

然而，MAP预测可能导致不那么丰富的翻译(Ott等人，2018a)，因为在歧义的情况下，它总是倾向于最可能的替代方案。这在具有高度不确定性的任务中尤其成问题，例如对话(Serban et al.， 2016)和故事生成(Fan et al.， 2018)。我们认为这对于数据增强方案(如反向翻译)也是有问题的。Beam和greedy集中在模型分布的头部，这导致非常规则的合成源句子不能正确覆盖真实的数据分布。

作为替代方案，我们考虑从模型分布中采样以及在波束搜索输出中添加噪声。首先，我们探索无限制采样，它产生的输出非常多样化，但有时极不可能。其次，我们调查了限于最可能的单词的抽样(Graves, 2013;Ott等人，2018a;Fan等人，2018)。在每个时间步，我们从输出分布中选择k个最可能的标记，重新规范化，然后从这个限制集中抽样。这是MAP和非严格抽样之间的中间地带。

作为第三种选择，我们将Lample等人(2018a)的噪声应用于波束搜索输出。在输入句子中添加噪声对于(Lample等人，2018a)的自编码器设置非常有益;Hill等人，2016)，灵感来自去噪自动编码器(Vincent等人，2008)。特别是，我们用三种类型的噪声变换源句子:删除概率为0.1的单词，用概率为0.1的填充标记替换单词，以及作为标记上的随机排列实现的单词交换，从均匀分布中提取，但仅限于交换不超过三个位置的单词。

4、实验设置

4.1、数据集

我们的大部分实验都是基于WMT ' 18英德新闻翻译任务的数据。我们在除ParaCrawl语料库之外的所有可用的bittext上进行训练，并删除超过250个单词的句子以及源/目标长度比超过1.5的句子对。这就产生了5.18万个句子对。对于反向翻译实验，我们使用WMT ' 18分发的德语单语new涂鸦数据，删除重复后包含2.26亿个句子。我们使用Moses标记器对所有数据进行标记(Koehn等人，2007)，并学习联合源和目标字节对编码(BPE;Sennrich等人，2016)，有35K个类型。我们在newstest2012上进行开发，并在newstest20132017上报告最终结果;此外，我们还考虑了一个来自52K句对的训练数据的保留集。

我们还在更大的WMT ' 14英语-法语任务上进行了实验，我们以与WMT ' 18英语-德语相同的方式进行过滤。这就产生了3570万个用于训练的句子对，我们学习了44K个类型的联合BPE词汇。作为单语数据，我们使用newl2010 -2014，包含经过语言识别的31M个句子(Lui and Baldwin, 2012)。我们使用newstest2012作为开发集，并报告newstest2013-2015的最终结果。

本文中的大多数结果都是关于区分大小写的标记化BLEU (Papineni等人，2002)，但我们也报告了使用sacreBLEU的去标记化BLEU的测试准确性(Post, 2018)。

4.2、模型和超参数

我们使用fairseq工具包在pytorch中重新实现了Transformer模型所有的实验都是基于大Transformer架构，在编码器和解码器中有6个块。我们对所有实验使用相同的超参数，即，大小为1024的单词表示，内维为4096的前馈层。En-De的Dropout设置为0.3,En-Fr的Dropout设置为0.1，我们使用16个注意头，并对最后10个epoch的检查点进行平均。模型由Adam (Kingma and Ba, 2015)使用β1 = 0.9， β2 = 0.98和β = 1e - 8进行优化，我们使用与V aswani等人(2017)相同的学习率调度。所有模型都使用在词汇表上具有均匀先验分布的标签平滑(Szegedy et al.， 2015;Pereyra et al.， 2017)。我们在带有8个Nvidia V100 gpu的DGX-1机器上进行实验，机器通过Infiniband互连。实验在16台机器上运行，我们执行30K同步更新。我们还使用NCCL2库和torch分发包进行gpu间通信。我们使用16位浮点运算训练模型，遵循Ott等人(2018b)。对于最终的评估，我们使用大小为5且没有长度限制的横梁生成翻译。

5、结果

我们的评估首先比较了反向翻译生成方法的准确性(§5.1)，并分析了结果(§5.2)。接下来，我们模拟一个低资源设置，以进一步实验不同的生成方法(§5.3)。我们还将合成文本与真实的并行数据进行比较，并检查反向翻译中产生的域效应(§5.4)。我们还在训练期间测量了上采样文本的效果(§5.5)。最后，我们扩展到一个非常大的设置，多达2.26亿个单语句子，并与之前的研究进行比较(§5.6)。

5.1、合成数据生成方法

我们首先研究了在给定反向翻译模型(即在反向语言方向上训练的模型)的情况下生成合成源翻译的不同方法(第3节)。我们考虑了两种MAP预测类型:贪婪搜索(greedy)和束大小为5的束搜索(beam)。非映射方法包括从模型分布中无限制采样(采样)，限制采样到每个时间步长k = 10 (top10)的k个最高得分的输出，以及向波束输出添加噪声(波束+噪声)。限制采样是介于束搜索和无限制采样之间的中间地带，它不太可能选择得分很低的输出，但仍然保留了一些随机性。top5、top20、top50的初步实验结果与top10相似。

我们还改变了合成数据的数量，在训练期间仅对文本进行30K次更新，在添加3M合成句子时进行50K次更新，对6M和12M句子进行75K次更新，对24M句子进行100K次更新。对于每个设置，这对应于足够的更新，以达到在滞留损失方面的收敛。在我们的128个GPU设置中，纯文本模型的最终模型的训练时间为3h 20min, 6M和12M合成句子的训练时间为7h 30min, 24M句子的训练时间为10h 15min。在训练期间，我们也比合成数据更频繁地对文本进行采样，我们在§5.5中更详细地分析了这一点的影响。

图1显示，采样和波束+噪声比MAP方法(纯波束搜索和贪婪)高出0.8-1.1 BLEU。在最大的数据设置中，采样和波束+噪声比纯bittext (5M)提高了1.7-2 BLEU。受限采样(top10)的性能优于波束和贪心，但不如无限制采样(sampling)或波束+噪声有效。

表1显示了在更大范围的测试集上的结果(newstest2013-2017)。采样和波束+噪声效果大致相等，其余实验采用采样。

5.2、生成方法分析

先前的实验表明，通过带噪声的采样和波束生成的合成源句子的性能明显优于纯MAP方法。为什么会这样?

波束搜索侧重于非常可能的输出，这降低了生成的源翻译的多样性和丰富性。向波束输出和采样添加噪声就没有这个问题:噪声源句子使预测目标翻译变得更加困难，这可能有助于学习，类似于去噪自编码器(Vincent等人，2008)。已知采样可以更好地近似比argmax模型输出更丰富的数据分布(Ott等人，2018a)。因此，采样也更有可能提供比argmax序列更丰富的训练信号。

为了更好地理解每种方法提供的训练信号，我们比较了每种方法在训练数据上的损失。我们报告了所有标记的平均交叉熵损失，并将合成数据和真实文本数据的损失分开。具体来说，我们选择24M合成句的设置。在每个epoch结束时，我们测量了从合成数据中抽取的超过500K个句子对的损失，以及同等大小的文本子集。对于每个生成方法，除了与合成数据不相交的文本外，我们选择相同的句子。这意味着合成数据的损失是在相同的目标标记上测量的，因为生成方法只在源句子中不同。我们发现，与合成数据相比，对观察到的bitext的频率进行上采样是有帮助的(§5.5)，但我们没有为这个实验进行上采样，以保持条件尽可能相似。我们假设当训练损失较低时，模型可以很容易地拟合训练数据，而不需要提取比难以拟合的数据更多的学习信号。

表3:抽样产生不充分输出的例子。“总统先生，”这句话不在信源中。BLANK表示一个单词已被填充标记所替换。

图2显示，与采样、top10、波束+噪声和bittext的数据相比，基于贪婪或波束的合成数据更容易拟合。实际上，仅经过5个epoch，波束数据的困惑度就降到了2以下。除了采样之外，我们发现训练数据上的困惑度与最终模型精度有一定的相关性(参见图1)，并且除了采样之外的所有方法的损失都低于真实文本。

这些结果表明，使用argmax推理获得的合成数据不能提供像采样或添加噪声那样丰富的训练信号。我们推测用argmax推理得到的合成数据的规则性不是最优的。采样和带噪声的argmax都将模型暴露在更大范围的源句子中，这使得模型对自然发生的重新排序和替换更加健壮，即使通过噪声进行重新排序和替换的模型不是很现实。

接下来，我们分析合成输出的丰富度，并在真实的人类文本上训练语言模型，并对通过束搜索、采样、top10和束+噪声生成的合成源句子进行评分。我们假设，非常规则的数据应该更容易被语言模型预测，因此得到低困惑。我们通过将并行语料库分成三个不重叠的部分，消除了语言模型训练数据和合成数据之间可能存在的领域不匹配效应:

在640K对句子上，我们训练了一个反向翻译模型，
在410万句对上，我们从源端出发，训练一个5克克的Kneser-Ney语言模型(Heafield et al.， 2013);
在剩余的450K个句子中，我们使用了基于波束、采样和top10生成的反翻译系统。

对于最后一组，我们有真实的源句子，也有来自不同生成技术的合成源。我们在表2中报告了我们的语言模型对所有版本的源数据的困惑。结果表明，与采样、波束+噪声和真实源句子相比，语言模型得到的波束输出的概率更高。这表明波束搜索输出不如采样输出或波束+噪声输出丰富。这种可变性的缺乏可能部分解释了为什么纯波束搜索的反向翻译提供的训练信号比其他方法更弱。

仔细检查合成源(表3)可以发现，采样和带噪声的波束输出有时不是很充分，比MAP输出要严重得多，例如，采样经常引入源中没有对应词的目标词。这是因为采样有时会选择非常不可能的输出，这更难拟合(参见图2)。

5.3、低资源vs.高资源设置

到目前为止，实验都是基于一个大型双语语料库的设置。然而，在资源贫乏的环境中，反向翻译模型的质量要低得多。在这样的设置中，非map方法是否仍然更有效?为了回答这个问题，我们通过将训练数据子采样到80K句对或640K句对来模拟这种设置，然后添加采样和波束搜索的合成数据。我们将这些较小的设置与原始的520万句子文本配置进行比较。随着训练数据的增加，德语-英语反向翻译系统的准确性稳步提高:在newstest2012上，我们测量了80K文本的13.5 BLEU, 640K的24.3 BLEU和5M的28.3 BLEU。

图3显示，对于较大的设置(640K和5.2M字节文本)，采样比波束更有效，而对于资源较差的设置(80K字节文本)，则相反。这可能是因为80K设置中的反向平移质量非常差，采样噪声和波束+噪声对于这种脆弱的低资源设置太有害了。当设置非常小时，非常规则的MAP输出仍然提供有用的训练信号，而采样噪声变得有害。

5.4、合成领域数据

接下来，我们转向两个不同的问题:在最终模型精度方面，真实的人类文本与合成数据相比如何?单语数据的域如何影响结果?

为了回答这些问题，我们从文本中抽取了640K个句子对，并在此基础上训练了一个反向翻译系统。为了训练前向模型，我们考虑了三种可供选择的数据类型来添加到这个640K的训练集中。我们可以加上:

剩余的并行数据(bittext)，
剩余并行数据的反向翻译目标侧(bt - bittext);
反向翻译的newscrawl数据(BT-news)。

反向翻译的数据是通过抽样生成的。这种设置允许我们将合成数据与真实数据进行比较，因为bt - bittext和bittext共享相同的目标侧。它还允许我们估计BT数据对领域适应的价值，因为newwordl语料库(BT-news)是纯新闻，而bittext是europarl和commoncrawl的混合物，只有一小部分新闻评论。为了评估域适应效应，我们测量了两个hold -out集的精度:

Newstest2012，即纯新闻专线数据。
WMT训练数据的固定集(valid-mixed)，它是europarl、commoncrawl和少量新闻评论部分的混合。

图4显示了两个验证集上的结果。最引人注目的是，BT-news在newstest2012上的表现几乎和bittext一样好(图4a)，并且将基线(640K)提高了2.6 BLEU。bbittext提高了2.2 BLEU，达到真实bittext改进的83%。这表明，当域匹配时，合成数据几乎可以与真实的人工翻译数据一样有效。

图4b显示了valid-mixed(混合域有效集)上的精度。由于BT数据的域与测试集不匹配，BTnews的准确性不如以前。然而，BT-news仍然将基线提高了1.2 BLEU。另一方面，bt - bittext匹配valid-mix域，提高2.7 BLEU。这比真实文本仅落后1.3 BLEU，相当于真实人类文本所获得的增益的67%。

总而言之，合成数据的性能非常好，接近新闻通讯社测试数据中使用真实文本所取得的改进，或者在validmixed中仅落后真实文本1.3 BLEU。在缺乏大型新闻平行语料库的情况下，反翻译提供了一种简单但非常有效的领域自适应技术。

图4:使用(i)真实并行数据(bittext)、(ii) bittext目标侧的反向翻译版本(bt - bittext)、(iii)或反向翻译的newwordl数据(BT-news)增长640K的bittext语料库时，(a) newstest2012和(b)混合域有效集的准确性。

5.5、对文本进行上采样

我们发现调整训练中观察到的文本与合成数据的比例是有益的。特别是，我们调整了从文本中采样数据与合成数据相比的速率。例如，在一个5M个文本句子和10M个合成句子的设置中，上采样率为2意味着我们访问文本的频率增加了一倍，即训练批次平均包含等量的文本和合成数据，而不是1/3个文本和2/3个合成数据。

图5显示了在5M个文本句子和24M个合成句子的设置中，不同生成方法的各种上采样率的准确性。Beam和greedy从更高的速率中获益良多，这导致在文本数据上训练更多。这可能是因为合成光束和贪婪数据没有提供像文本那样多的训练信号，文本有更多的变化，更难拟合。另一方面，采样和波束+噪声不需要对文本进行上采样，这可能是因为合成数据已经足够硬来拟合，从而提供了一个强大的训练信号(§5.2)。

5.6、大规模结果

为了证实我们的发现，我们对WMT的14个英法翻译进行了实验，我们展示了2013-2015年新闻的结果。我们用抽样生成的31M new潦草句子扩充了3570万句对的大文本。为了训练这个系统，我们在128个gpu上进行了27小时40分钟的30万次训练更新;在这个实验中，我们没有对文本进行上采样。表4显示了标记化的BLEU，表5显示了去标记化的BLEU.2据我们所知，我们的基线是newstest2014文献中报告的最佳结果，反向翻译在此基础上进一步提高了2.6 BLEU(标记化)。

图5:在训练期间改变文本上采样率时的准确性。比率大于1意味着观察到的文本比组合文本和合成训练语料库中实际存在的文本更多。

表4:在WMT英法翻译的各种测试集上标记化BLEU。

表5:WMT英语-法语的各种测试集上的去标记化BLEU (sacreBLEU)。

最后，对于WMT英语-德语，我们在所有226M个可用的单语训练句子上进行训练，并在22.5小时内在128个gpu上执行250K次更新。我们以16的频率对文本进行上采样，这样我们观察每个文本句子的频率是单语句子的16倍。在newstest2014上，仅使用WMT基准数据，就获得了35 BLEU的最新技术水平。相比之下，基于高质量双语训练数据的商业翻译引擎DeepL实现了33.3标记化BLEU。表6总结了我们的结果，并与文献中的其他工作进行了比较。这表明带采样的反向翻译可以产生仅基于基准数据的高质量翻译模型。

6、提交到WMT ' 18

本节描述了我们进入WMT的18个英语-德语新闻翻译任务，该任务在人类评估中排名第一(Bojar等人，2018)。我们的条目是基于前一节(§5.6)中描述的WMT英语-德语模型。特别是，我们集成了六个反向翻译模型，这些模型训练在所有可用的bittext和226M new潦草句子或58 b德语标记上。四个模型使用bittext上采样比16，一个模型上采样比32，另一个模型上采样比8。上样本比率不同是因为我们重用了以前训练过的模型来调整上样本比率。我们没有使用检查点平均。我们的设置和数据的更多细节见§4。

表6:2014年WMT英语-德语(En-De)和英语-法语(En-Fr)的BLEU。前四个结果仅使用WMT文本(WMT ' 14，除了En-De中的b、c、d在WMT ' 16上进行训练)。DeepL使用专有的高质量文本，我们的结果依赖于反向翻译，En-De有226M个new潦草句子，En-Fr有31M个。我们还展示了去 token化 BLEU (SacreBLEU)。

表7:WMT英语-德语newstest17和newstest18上去标记化的大小写不敏感的sacreBLEU。

Ott等人(2018a)表明，波束搜索有时输出源副本而不是目标语言翻译。我们用仅在WMT ' 18任务的新闻评论部分(nc模型)上训练的模型的输出来替换源副本。这个模型产生的副本要少得多，因为这个数据集的噪声更小。如果源单元和目标单元之间的Jaccard相似度超过0.5，则将输出视为源副本。大约0.5%的输出被识别为源副本。我们使用newstest17作为开发集来微调集合大小和模型参数。表7总结了反向翻译数据、集成和源副本过滤的效果。

7、结论和未来工作

反向翻译是神经机器翻译中一种非常有效的数据增强技术。通过采样或通过在波束输出中添加噪声来产生合成源，比通常使用的argmax推理具有更高的精度。在newstest2013-2017的WMT英德翻译中，采样和噪声波束比纯波束平均高出1.7 BLEU。这两种方法都提供了丰富的训练信号，除了资源贫乏的设置。我们还发现，合成数据的性能可以达到真实文本的83%。最后，我们通过仅使用公开的基准数据，在WMT的14个英语-德语测试集上获得了35 BLEU的最新成绩。

在未来的工作中，我们希望研究一种端到端方法，其中反向翻译模型被优化以输出对最终正向模型最有帮助的合成源。