WMT-526互联

Fairseq 机器翻译数据处理 (NMT, WMT, translation)

摘要 fairseq是个常用的机器翻译项目。它的优化很好，但代码晦涩难懂，限制了我们的使用。翻译数据的准备，是训练的第一步。但 fairseq 关于翻译数据的准备流程散布在零星的 bash 脚本中。本文旨在梳理如下流程：1）准备 WMT23 的数据，2）训练模型，3）用 sacrebleu 评测模 ......

数据处理 translation 机器 Fairseq 数据更新时间 2023-11-07

NLP | WMT数据集说明

**网址**：https://www.statmt.org/ ![](https://img2023.cnblogs.com/blog/3085423/202308/3085423-20230807173834377-929343051.png) 其中下面这个是WMT每年的链接： ![](https ......

数据 NLP WMT更新时间 2023-08-07

Huggingface | 使用WMT16数据集微调BART训练新的标记进行翻译

BART模型是用来预训练seq-to-seq模型的降噪自动编码器（autoencoder）。它是一个序列到序列的模型，具有对损坏文本的双向编码器和一个从左到右的自回归解码器，所以它可以完美的执行翻译任务。如果你想在翻译任务上测试一个新的体系结构，比如在自定义数据集上训练一个新的标记，那么处理起来会 ......

Huggingface 标记数据 BART WMT更新时间 2023-07-06

Huggingface微调BART的代码示例：WMT16数据集训练新的标记进行翻译

BART模型是用来预训练seq-to-seq模型的降噪自动编码器（autoencoder）。它是一个序列到序列的模型，具有对损坏文本的双向编码器和一个从左到右的自回归解码器，所以它可以完美的执行翻译任务。如果你想在翻译任务上测试一个新的体系结构，比如在自定义数据集上训练一个新的标记，那么处理起来会 ......

示例 Huggingface 标记代码数据更新时间 2023-03-23