机器翻译 | Prompting Large Language Model for Machine Translation: A Case Study论文翻译-526互联

题目：

机器翻译的提示大语言模型:一个案例研究

摘要

对提示的研究表明，在很少甚至没有监督训练的情况下，提示在许多任务中表现出色。然而，文献中对机器翻译的提示还没有充分的研究。本文对翻译提示策略进行了系统的研究，考察了提示模板和示例选择的各种因素，填补了这一空白。我们进一步探讨了单语数据的使用，以及跨语言、跨领域和句子到文档迁移学习在提示语中的可行性。以GLM-130B (Zeng et al.， 2022)为测试平台的大量实验表明，1)提示示例的数量和质量很重要，其中使用次优示例会使翻译退化;2)提示例的语义相似度等特征与其提示效果呈显著的Spearman相关;然而，这些相关性都不够强;3)使用由单语数据构建的伪并行提示示例，通过零次提示可以提高翻译效率;4)通过从其他设置中选择的提示示例中转迁移知识，可以实现性能的提高。最后对模型的输出进行了分析，并讨论了提示仍然存在的几个问题。

1、介绍

在大量未标记语料库上预训练的大型语言模型(llm)在模型缩放下显示出令人印象深刻的突发能力，这使得下游应用能够得到提示(Brown等人，2020;Kaplan et al.， 2020;Wei等人，2022b;张等，2022a;Chowdhery et al.， 2022)。与特定于任务的调优不同，提示通过用描述性任务指令改写测试示例来构建特定于任务的提示，并通过直接向llm提供提示来执行任务。通过提供一些标记示例(或提示示例)作为演示，可以通过上下文学习进一步增强(Brown et al.， 2020)。作为一种新的范式，提示法学硕士在一系列自然语言处理(NLP)任务中取得了最先进的性能(Chung等人，2022;Goyal等人，2022;Wei et al.， 2022c;Chowdhery et al.， 2022)。

在本文中，我们关注的是机器翻译(MT)的llm提示。机器翻译是一项复杂的任务，需要将源输入转换为不同语言的语义等效目标输出，它结合了序列理解和生成。它提供了一个独特的平台来评估llm的跨语言生成能力，评估可能有助于实现通用llm的预训练/微调算法设计(Chowdhery et al.， 2022)。虽然有一些研究报告了翻译结果(Brown et al.， 2020;Chowdhery et al.， 2022)，文献中仍然缺少关于提示如何对MT起作用的系统研究。

我们的目标是通过使用最近发布的GLM-130B (Zeng et al.， 2022)彻底检查不同的提示设置来填补这一空白，特别是在三个方面:提示策略，未标记/单语数据的使用，以及迁移学习的可行性。提示对提示模板和示例的选择表现出不同的敏感性(Zhao et al.， 2021)。对于MT，先前的研究采用了不同的模板(Brown et al.， 2020;魏等人，2022a;Chowdhery et al.， 2022)，我们重新评估它们以找出最优的一个。我们进一步为提示示例设计了一组特征，并探索哪些特征可以解释提示性能，根据这些特征我们制定了示例选择策略。

由于利用单语数据来改进机器翻译一直是人们的兴趣所在，我们想确定这些数据是否以及如何用于即时示例构建。我们通过研究使用后向/前向翻译的数据增强效果，朝这个方向迈出了一步(Sennrich等人，2016b;Zhang and Zong, 2016)通过零射击提示。此外，神经机器翻译和预训练的法学硕士显示出令人鼓舞的迁移能力(Devlin等人，2019;Arivazhagan等人，2019;Zhang et al.， 2020;Xue et al.， 2021)，但用于提示的迁移学习很少受到关注。提示示例是否可以在不同的设置中转换，例如从一个领域/语言对转换到另一个领域/语言对，以及从句子级示例转换到文档级翻译，还有待解决。

我们以GLM-130B作为测试平台，在FLORES和WMT评估集上进行了广泛的实验，解决了上述问题。我们主要学习三种语言的翻译:英语、德语和汉语。我们还提供了定量和定性分析，以揭示提示MT时存在的问题，这可能为未来的研究提供见解。我们的主要发现如下:

不同模板的提示性能差异很大，特定于语言的模板主要在翻译成llm预训练的语言时起作用。简单形式的英文模板最适合MT。
提示示例的几个特征，如序列长度、语言模型得分和语义相似度，与提示性能显著相关，但相关强度一般较弱。基于这些特征选择示例可以优于随机策略，但不是一致的。
用单语例子来提示不利于翻译。相比之下，通过向后/向前转换构造伪并行示例是一个不错的选择。反向翻译性能更好，更健壮。
提示表现出一定程度的可转移性。使用其他场景的演示可以提高平移率，而在一个场景中演示的优势很难推广到另一个场景。
MT的提示仍然存在着复制、实体误译、幻觉、直接非英文翻译低劣、提示陷阱(通过提示翻译提示本身变得不平凡)等问题。

2、设置

MT提示 给定一个预训练固定的LLM L, MT提示首先根据模板T将每个测试输入X转换为提示，然后将提示馈送给L生成翻译Y。在本研究中，我们考虑zero-shot和few-shot翻译提示。

Zero-shot提示只能访问测试输入X，而few-shot提示假设有几个额外的标记示例(或提示/演示示例)$D^P = {X'_i, y'i}^K$可用，并且可以用作演示。具体而言，根据第3节的结果，我们采用以下模板进行zero-shot提示:

其中[src]和[tgt]分别表示测试语言，即测试语言对的源语言名和目标语言名。对于few-show提示，我们将给出的提示示例连接起来:

其中[psrc]和[ptgt]分别表示提示语言，即提示示例的源语言名和目标语言名。默认情况下，提示示例和测试数据使用同一语言对。然而，当考虑跨语言迁移提示时，提示示例可能在不同的语言对中。

我们还探讨了模板语言，它表示模板所使用的语言。例如，中文模板“中文:X 英文:”表示以下英文模板“Chinese:X English:”的中文对应部分。

设置我们使用GLM-130B进行实验，这是一个在中文和英文单语语料库上预训练了130B参数的LLM，据报道，它在几个NLP任务上的表现优于GPT-3和OPT-175B (Zeng et al.， 2022)。注意，GLM-130B是未经进一步调优的原始LLM。我们使用的是它的int4量子化版本，它更便宜，而且性能下降很小。我们对波束大小为2的MT采用波束搜索，并使用4块RTX 3090和A100-40G gpu进行实验。

我们使用三种语言:英语(En)、德语(De)和中文(Zh)。我们对FLORES (Wiki领域，En- de -Zh, NLLB Team等人，2022)和WMT21(新闻领域，En- de, En-Zh, Akhbardeh等人，2021)进行了主要分析，并报告了多领域(IT，法律和医学领域，De-En, Aharoni和Goldberg, 2020)的结果，以检查领域的鲁棒性和传输能力，PDC(新闻领域，Zh→En, Sun等人，2022)用于文档级翻译。为了理解提示示例与其提示性能之间的关系，我们基于FLORES、WMT21和Multi-Domain的开发集分别构建了一个针对Wiki、WMT和Multi-Domain (IT和医疗)的消融集，其中我们随机抽取100个实例作为消融测试集，其余实例作为默认示例选择池。为了区分，我们将官方开发和测试集称为完整集。详细统计结果见附录表9。

我们使用基于表面的度量，即来自SacreBLEU的去标记化BLEU ^(Post, 2018)，以及基于模型的度量，即来自unbabel-comet的COMET ^和wmt20comet-da (Rei et al.， 2020)来评估翻译性能。

表1:在Wiki消融集上使用不同模板和不同模板语言的zero-shot提示，COMET得分平均超过6种语言对。W /和W /o表示是否在模板中添加换行符;？指示换行符的位置。[src]和[tgt]分别表示源测试语言名和目标测试语言名，[input]表示测试输入;它们都是占位符。模板语言为英文、德文和中文。最好的结果以粗体显示。

图1:在Wiki消融集上，COMET分数作为提示示例数量的函数(K = 1,5,10,20)。对于每个设置，我们从示例池中随机采样100次，并通过箱形图显示性能分布。红色虚线为零杆基线;蓝色曲线和阴影区域表示平均值和标准差。

3、MT的提示策略

为了执行机器翻译，提示需要通过提示将翻译问题转换为语言建模问题。因此，提示符的格式(包括其措辞)直接影响LLM如何理解任务及其行为。对于MT，我们感兴趣的研究问题有:

我们应该使用哪个模板进行MT提示?模板用什么语言?
演示对MT提示重要吗?如何选择最佳提示示例?

我们通过在Wiki消融集上进行大量实验来解决这些问题。

不同模板的零射击提示性能差别很大。我们从zero-shot提示开始，探索不同模板的效果。这取决于如何描述MT，并部分受到先前研究的启发(Brown et al.， 2020;Chowdhery et al.， 2022;Wei等人，2022a)，我们比较了6个模板，并在涵盖6对语言(En↔De, En↔Zh, De↔Zh)的Wiki Ablation集合上对它们进行了评估。表1显示了结果(我们在附录表10中列出了详细的结果)。模板对零拍质量影响较大，简单模板A?在英语中，只指定源语言和目标语言名称可以达到最佳的总体效果。因此，在后续实验中，我们将重点关注模板A?

表2:在Wiki消融集上，演示特征与提示性能之间的Spearman ρ。我们从每个池中随机抽取600个演示来计算相关性。HQ:示例来自默认的高质量池;LQ:示例来自基于WikiMatrix.v1的低质量池。

图2:COMET和LMScore在Wiki消融集上的1次提示之间的可视化。虽然相关性很显著，但数据点像云一样分散。

特定于语言的模板提供了不同的结果。表1还显示了德语和中文模板的提示结果，这两个模板的提示结果往往远远落后于英语模板。由于在GLM-130B中，德语不是主要的预训练语言，因此德语模板大大降低了翻译的质量。相比之下，中文模板在翻译成中文时可以提高性能(见表10)。尽管如此，平均而言，英语模板效果最好。

GLM-130B对英语模板的偏好也表明，尽管GLM-130B在相同数量的单语汉语和英语标记上进行了预训练，但其语言理解水平和跨语言能力在不同语言之间存在差异。这可能是由于英语的使用比中文更广泛，但也可能表明，提高LLM的语言理解需要更先进的训练算法，而不仅仅是缩放训练数据。

平均而言，使用更多提示示例来演示可以显著提高翻译效果。我们接下来研究few-shot提示遵循模板A?而是格式(2)，K从1到20不等。我们通过随机抽样来评估每个K的多个演示，以减少数据偏差。图1显示，使用的示例越多，平均性能越好(更多结果见图5，附录)，尽管代价是使用更多GPU内存，并增加每个token的推理时间，如图3所示。

演示的性能不稳定。然而，在相同的K下，我们也看到了很高的性能差异。有5个示例的演示可能优于10个或20个对应的演示。图1还显示，在许多情况下，即使平均而言，1次提示的性能也不如0次提示。这与之前在其他NLP任务上的发现相呼应(Zhao et al.， 2021;Liu et al.， 2022)，并强调了制定有效的示例选择策略的重要性。

请注意，few-shot提示大大提高了翻译成中文。根据我们的手工分析，原因是zero-shot基线倾向于用混乱的代码翻译成繁体中文，而提示示例可以提供帮助(参考文本总是简体中文)。

有几个特征与提示性能显著相关，但相关性很弱。因此，我们转而探索示例选择的提示。我们的想法是从演示中提取几个不同的特征，并检查其中是否有足够的信息可以用作选择的指示符。在本研究中，我们通过关注1次提示来简化我们的分析，而忽略了提示示例的顺序(我们将少次分析留到将来)。具体来说，我们提取并分析了一个论证的7个特征:

S(T)Length 源(目标)token的数量;

表3:不同选择策略在Wiki和WMT Full set上，BLEU和COMET的zero-shot和few-shot提示得分。我们的:拟议的联合战略;Random:随机抽样;SemScore, LMScore和TLength表示根据相应的特征值选择排名靠前的样例。我们为每个翻译方向选择3个演示，并报告平均表现;最后的分数是在不同的语言对上进一步平均的。带下划线的结果表示每个部分的最佳结果，而粗体结果表示整体最佳结果。

LMScore 基于glm - 130b的长度归一化对数似然论证;

MTScore 来自COMET QE模型wmt20- COMET -da (Rei et al.， 2020)的提示示例翻译质量;

SemScore 基于LASER2演示的源句子和目标句子嵌入余弦相似度的语义评分(Heffernan et al.， 2022);

CaseSemScore-Src 与测试输入和演示源之间的SemScores平均值的输入相似度;

CaseSemScore-Tgt 类似于CaseSemScore-Src，但与演示的目标相比;

我们随机抽取多个演示，并检验特征值与提示性能之间的Spearman相关性。我们考虑了高质量和低质量的抽样池。

表2总结了结果，图2说明了COMET和LMScore之间的关系(表11和附录图6、7给出了更多结果)。使用高质量的库，不同的演示产生相似的翻译结果(见蓝点)，尽管它们的特征值差异很大。其中De→En和Zh→En的相关性不显著，且不一致。这表明为高质量的示例池制定选择策略是非常重要的。

在与低质量池的示范混合后，意义得到加强。LMScore和CaseSemScore-Tgt的平均相关性最高，其次是TLength和SemScore。MTScore的表现要差得多，这可能是由于其在句子级评价上的不稳定性造成的(Moghe et al.， 2022)。然而，在输入相关和输入不可知特征(Agrawal et al.， 2022)之间，无论是基于表面的、基于llm的还是基于语义的特征，我们都没有看到Spearman ρ的显著差异。令人惊讶的是，S/TLength这个简单的特征产生了相当高的相关性。我们认为长样例可以为LLM提供更多关于任务输入和输出空间的信号。这一发现表明，研究人员应该选择长未标记的句子进行注释，以提高提示。然而，大多数斯皮尔曼ρs都远小于0.5，表明两者之间存在弱/脆弱关系。

一般来说，选择翻译质量高、语义相似度高、LLM似然度高、序列长度长、测试输入相似度高的提示示例都是较好的策略。不幸的是，它们都不能保证最佳的翻译性能。

使用基于建议的特征选择的提示示例可以提高性能。接下来，我们在全套设备上验证上述发现。我们探索了基于SemScore, LMScore和TLength的选择策略(即使用排名靠前的例子)，因为它们显示出很高的平均相关性。我们没有分析CaseSemScore-Tgt，因为它更复杂，没有显著的区别。注意，我们在选择过程中排除了太长(超过100个标记)或太短(少于10个标记)的示例。我们还考虑了5次提示，其中我们按升序将排名最高的5个示例连接在一起(Liu et al.， 2022)。

表3显示，对于高质量的池，采用基于特征的策略可能优于随机基线，基于semscore的策略在不同设置下都表现良好(详细结果见附录表13和表14)。这些策略在一定程度上也可以推广到5次提示。对于从低质量样本池中选择样本，我们提出了一种组合策略:我们首先根据SemScore选择top-11K个样本来过滤不好的样本，其中top-1K也被删除，因为它们往往没有信息量(见附录中的表12);然后使用LMScore对其余样本重新排序，并保留top-1K个样本，在此基础上进一步应用基于长度的策略。在表3中，这种组合策略在不同程度上优于随机策略。

图4:在Wiki消融集上使用单语数据进行几次提示的COMET得分。随机例子:随机的句子对;源/目标示例仅:仅使用源或目标数据进行提示;源/目标示例8:使用伪并行数据，而不是通过零射击提示构造。对于每个设置，我们随机抽样50个演示并报告平均性能。

4、单语提示数据

如何利用未标记的数据来改进翻译是机器翻译中一个长期存在的问题。虽然提示可以实现少镜头学习，减少数据需求，但探索演示是否可以从单语示例中受益，无论是对于机器翻译研究还是对于理解演示在提示中的作用，都是有价值的。

Min et al.(2022)认为演示的关键作用在于它对输入空间、标签空间和提示格式的支持，而不是示例的真实性。他们发现，在演示中随机替换标签几乎不会影响分类任务的表现。我们通过研究以下三种提示设置，在机器翻译的背景下重新验证了这一论点:1)随机示例，随机地从单语源和目标构建句子对;2)源/目标示例仅使用单语源/目标单独进行提示。

直接使用单语数据进行演示是行不通的。图4(顶部)显示了一个完全不同的情况(参见附录中的图8和图9了解更多结果):基于单语言示例的演示几乎总是会损害翻译，使用的示例越多，产生的退化就越多。使用随机示例会误导提示，通常效果最差;与仅使用目标示例相比，除了翻译成中文外，使用源示例的结果略好一些。这表明在演示中应该保留真实的源-目标映射，也表明机器翻译具有独特的挑战，值得在研究提示时更加注意。

通过前向/反向转换的伪并行示例有利于提示。受MT中数据增强的启发(Sennrich et al.， 2016b;Zhang和Zong, 2016)，我们接下来求助于构建伪并行数据。我们首先采用GLM130B通过zero-shot提示对源样例或目标样例进行平移，然后使用生成的并行样例进行演示。尽管质量不高，但图4(下图)表明，这是一种改进提示的有效方法，使用更多的示例通常会产生更好的结果。我们还观察到，反向翻译(即翻译目标单语示例)比正向翻译(即翻译源示例)表现更好，行为更稳健，甚至接近真实平行示例的提示。

5、提示的迁移学习

在获得了一个高性能的演示之后，我们对其能力在不同环境下的迁移感兴趣，特别是从一个领域/语言对到另一个，从句子级到文档级的翻译。虽然之前的研究证明了在分类任务中使用连续提示的可行性(Wang et al.， 2021)，但从未研究过机器翻译中硬提示的迁移。

表4:在Wiki消融集(En, De和Zh)上，1次提示下跨语迁移的Spearman ρ和相对表现。在研究语言对S1向S2迁移时，我们从S1的默认语言池中随机抽取300个演示，分别在S1和S2的消融测试集上进行评估，并以此计算相关性。性能也是平均的。∆质量:相对于零射击基线的相对质量。蓝色细胞表示正增益。源/目标共享:源/目标语言共享的传输设置的平均结果;相反:相同语言对的平均结果，但方向不同。

假设设置S1中选择演示D1和D2，且D1表现更好(即D1 > D2)，我们有以下研究问题:

在设定S2时，我们是否也可以期望D1 > D2 ?
使用S1中的演示是否可以优于S2中的zero-shot提示?

接下来，我们将通过1次提示的实验来研究这些问题。

演示的优越性并不适用于所有设置。如果D1 > D2的排序在不同设置中都成立，则同一组演示在不同设置中的结果应该显示出高且显著的Spearman相关。不幸的是，表4和表5中的相关性非常弱，而且往往不显著(表15、16和17给出了更多的结果)，即使是不同方向的相同语言对(reverse)和相似的领域(Wiki⇒WMT)。这表明我们需要特定于设置的演示来获得最佳的翻译质量。

使用不设置的演示可以使翻译受益。然而，我们仍然可以从使用设置外的演示中获得好处，如表4和表5中的积极收获所示，我们发现在目标共享和反向设置中的传输相对更容易，而且跨远程域的传输可以成功，特别是在嵌入示例池质量较低的情况下。向文档级翻译的转换也支持这一点，其中BLEU和特定于文档的评估都得到了改进，如表6所示。表19的结果表明，转移是不稳定的，并且可能产生负面结果，即比zero-shot提示更差，这在一定程度上与先前的研究结果相一致(Lin et al.， 2021)。我们把如何在迁移学习设置中选择提示示例的问题留给未来。

表5:1次提示下跨域转移的Spearman ρ和相对性能(在COMET中)。我们使用消融集探索从Wiki到多域的转移。相关性和性能的计算方式与跨语言迁移相同，只是我们抽样了200个演示。‡:p < 0.01有统计学意义;灰色细胞表示不重要。

表6:PDC Zh→En全套1次提示下从句子级演示到文档级翻译的迁移学习结果。我们将PDC中的每个测试文档分成不重叠的块，每个块大约包含4个句子。SemScore/LMScore:提示示例选择策略;我们将它们应用到PDC的默认池中。我们选择3个演示并报告平均性能。d-BLEU:文档级BLEU;TC/CP/PT/TCP(↑):在(Sun et al.， 2022)中提出的文档特定度量。

6、讨论

虽然提示可以使翻译有不错的表现，但它仍然存在许多(众所周知的)问题。在这里，我们简要解释我们从模型输出中观察到的问题。

提示有时会拒绝翻译输入。相反，它发出空输出或脱靶输出，即用错误的目标语言翻译。这在翻译成中文时经常发生，其中模型经常翻译成繁体中文，代码混乱，导致性能不稳定。除了过度依赖语言模型外，提示还容易导致输入的翻译不足、复制源短语、产生代码转换输出、翻译错误的实体(如日期)和产生幻觉，如表7所示。

表7:提示翻译错误案例研究。顶部:复制(红色)，日期翻译错误(蓝色)，来源误解(wave lines);底部:提示陷阱，模型无法翻译提示短语(粗体)。

表8:Wiki完整集合上De↔Zh的直接和旋转翻译的COMET分数。在1次提示中，我们随机抽取3个演示并报告平均性能。旋转:源→英语→目标。

我们还观察到一个特定于prompt: prompt陷阱的现象，当它的输入与提示模板短语混合在一起时，提示的行为是不可预测的。在表7中的第二种情况中，模型复制模板短语，而不是将它们翻译成中文。这意味着翻译提示本身(而不仅仅是输入)变得非常重要，并且用户可能会通过操纵输入格式来攻击基于提示的翻译系统。

我们发现德语和汉语之间的翻译质量很差(见表13)。我们认为GLM-130B的跨语言能力主要集中在英语上(尽管GLM-130B也接受过中文的预训练)，因此我们探索了旋转翻译。表8显示，通过英语进行切换极大地改善了非英语翻译。目前还不清楚当前的LLM预训练配方是否能够实现有希望的非英语中心的跨语言能力。我们可能需要考虑将并行数据添加到LLM预训练或微调中。

7、相关工作

提示的能力在很大程度上取决于它的表面表示，对提示的微小修改可能会导致其性能的巨大差异。这激励研究人员开发先进的提示策略，以最大限度地利用LLMs。Gao et al.(2021)提出使用T5自动生成提示模板(Xue et al.， 2021)，而不是采用手工模板。Liu等人(2022)报道了通过基于knn的检索器选择接近测试输入的提示示例，Sorensen等人(2022)采用了基于互信息的信息论方法，而Zhang等人(2022b)将示例选择表述为顺序决策问题，并通过强化学习解决。对于推理任务，Wei等人(2022c)开发了思维链(CoT)提示，让模型输出中间推理步骤，这启发了研究人员进一步探索CoT选择(Fu et al.， 2022)和分解(Zhou et al.， 2022)。与刚才提到的研究不同，这些研究主要集中在非机器翻译的NLP任务上，而我们研究的是专门针对翻译的提示策略。

提示使用指令来引导llm，这与带有特殊前缀的神经机器翻译密切相关。在多语言NMT中，通常在源输入后附加目标语言标签以指示翻译方向(Johnson et al.， 2017;Arivazhagan等人，2019;Zhang等人，2020)。特殊的属性标签也可以用来控制模型输出的属性，比如礼貌(Sennrich等人，2016a)、多样性(Shu等人，2019)和质量(Caswell等人，2019)。此外，可以将检索到的短语和句子扩充到输入中，以提高翻译质量(Zhang et al.， 2018;顾等人，2018)。随着提示LLM的普及，研究人员看到了将提示纳入神经机器翻译的价值(Li et al.， 2022;Tan等人，2021;Garcia和Firat, 2022)。尽管如此，这些方法依赖于预训练或微调模型，而不是提示冻结的llm。

最近，在我们工作的同时，Vilar等人(2022)检查了提示PaLM进行翻译的能力，发现使用随机选择的高质量示例进行提示的效果与使用输入相关示例的提示相当或更好。相比之下，Agrawal等人(2022)探索了选择特定输入示例的策略，并观察到基于n-gram重叠的输入相关示例显著提高了提示符的能力。我们的研究与他们的发现产生了共鸣，也解释了他们的冲突:虽然质量和基于输入的语义相似度与提示性能显著相关，但遗憾的是相关性强度不够强，因此使用它们作为选择示例的指标可能会产生混合结果。请注意，除了示例选择之外，我们还研究了使用单语数据和迁移学习进行MT提示，据我们所知，这是以前从未探索过的。

8、结论及未来工作

在本文中，我们对机器翻译的提示进行了系统的研究，探讨了从提示策略、未标记单语数据的使用到迁移学习的主题。我们发现提示模板和示范示例的选择都对翻译有实质性的影响。一些提示示例特性与提示性能显著相关;将它们作为选择的标准在某种程度上有利于翻译，但不是始终如一的，因为相关性不够强。

提示MT需要在演示中保留源-目标映射信号。直接使用单语言数据进行提示听起来很有趣，但行不通。通过零距提示的前后转换构造伪并行提示示例是一种简单而有效的解决方案。关于迁移学习，当将(句子级)演示应用于其他领域、其他语言对或文档级翻译时，我们看到了积极的结果。不幸的是，演示的最优性不能在不同的设置中一般化，并且传输性能也不稳定。我们认为机器翻译提供了一系列独特的挑战，并呼吁在评估机器翻译的提示法学硕士方面做出更多努力。

局限性

我们的研究在很大程度上依赖于INT-4量化的GLM-130B，与GPT和PaLM不同，GLM-130B是用双向和单向训练目标进行预训练的。量化可能会削弱模型的能力，并使某些未知方面恶化。目前尚不清楚我们的发现如何推广到其他预训练的法学硕士。此外，由于资源的限制，我们主要研究三种语言，在实验中，不同语言对的结果差异很大。增加实验语言的覆盖率将使结果更加可靠。

A、附录

表9:消融组与完整组的统计。括号中的数字表示实例的数量。*:来自维基矩阵.v1的数据 (Schwenk et al.， 2021)。

表10:在Wiki Ablation集合上使用不同模板和不同模板语言进行提示的详细zero-shot结果。在英语模板A达到BLEU和COMET衡量的整体最佳表现。Avg:不同语言对的平均结果。每个部分的最佳结果都有下划线;每一列的最佳结果以粗体显示。

图5:在Wiki Ablation集合上，COMET(上)和BLEU(下)的分数与提示示例数(K = 1,5,10,20)的关系。对于每个设置，我们从示例池中随机采样100次，并通过箱形图显示性能分布。红色虚线为零杆基线;蓝色曲线和阴影区域表示平均值和标准差。

图7:COMET/BLEU和LMScore在Wiki De↔Zh消融集上的1次提示的散点图。

表11:详细的斯皮尔曼ρ在演示功能和他们的提示性能(COMET和BLEU)之间的1-shot提示在Wiki消融设置。我们从每个池中随机抽取600个演示来计算相关性。高质量的示例来自默认选择池，而低质量的示例来自WikiMatrix.v1。†/‡:p < 0.05/0.01有统计学意义。灰色细胞表示不重要;红细胞表示ρ > 0.5。

论文翻译translation prompting language

chain-of-thought prompting language thought

chain-of-thought prompting reasoning language

language programming prompting models

recommendation personalized prompting language

translation论文翻译augmentation robustness

论文翻译back-translation understanding

数据处理translation机器fairseq

language survey models论文

language cascades论文model