Roberta

Static vs. Dynamic Masking

Roberta使用动态Mask。

Bert在预处理训练数据时，每个样本会进行一次随机的mask，后续的每个训练步都采用这次mask，实际上就是每个epoch是重复的，被称为静态mask。Roberta在预处理时没有进行mask，而是在每次向模型提供输入时进行随机mask，这意味着mask是变化的、动态的。

Roberta去除了 NSP 任务，更改输入为 FULL-SENTENCES

Bert为了捕捉句子之间的关系，使用了NSP任务进行预训练。论文中对输入与NSP任务设置了下面的两组实验：

使用NSP：
SEGMENT-PAIR+NSP: 输入为连续的两个段落（Bert）
SENTENCE-PAIR+NSP: 输入为连续的两个句子（会提升bs，以达到和SEGMENT-PAIR相同token数量）

放弃NSP：
FULL-SENTENCES: 输入为连续的句子，可以跨Doc （Roberta）
DOC-SENTENCES: 输入为连续的句子，不能跨Doc （会略微提升bs，以达到和FULL-SENTENCES相同token数量）

更大 Batch size

更多数据，更多epoch

Bert使用 wordpiece（BPE的一种），用 unicode characters 作为最小子词单元。
Roberta使用 byte-level BPE， bytes 作为最小子词单元