1. 背景

关于Prefix LM和Causal LM的区别，本qiang在网上逛了一翻，发现多数客官只给出了结论，但对于懵懵的本qiang，结果仍是懵懵...

因此，消遣了多半天，从原理及出处，交出了Prefix LM和Causal LM两者区别的更为清楚的说明。

2. Prefix LM

Prefix LM，即前缀语言模型，该结构是Google的T5模型论文起的名字，望文知义来说，这个模型的”前缀”有些内容，但继续向前追溯的话，微软的UniLM已经提及到了。

Prefix LM其实是Encoder-Decoder模型的变体，为什么这样说？解释如下：

(1) 在标准的Encoder-Decoder模型中，Encoder和Decoder各自使用一个独立的Transformer

( 2) 而在Prefix LM，Encoder和Decoder则共享了同一个Transformer结构，在Transformer内部通过Attention Mask机制来实现。

继续展开下Attention Mask机制，马上主题就有解了！

与标准Encoder-Decoder类似，Prefix LM在Encoder部分采用Auto Encoding (AE-自编码)模式，即前缀序列中任意两个token都相互可见，而Decoder部分采用Auto Regressive (AR-自回归)模式，即待生成的token可以看到Encoder侧所有token(包括上下文)和Decoder侧已经生成的token，但不能看未来尚未产生的token。

下面的图很形象地解释了Prefix LM的Attention Mask机制(左)及流转过程(右)。