扩散模型在文本摘要任务中可以采用的训练方法

发布时间 2023-07-12 11:43:16作者: ︶ㄣ演戲ㄣ

扩散模型在文本摘要任务中可以采用的训练方法

条件控制

通过设定不同的条件c,文本生成任务可以被进一步分类为unconditional generation,attribute-to-text generation (如属性控制),text-to-text generation (如机器翻译)。已有的文本扩散模型设计了不同的conditioning strategies将不同的条件c和去噪网络相结合。

当c被设置为文本序列或文章时,任务变为text-to-text generation,例如机器翻译和文本摘要。这类任务相较于attribute-to-text任务普遍更具挑战性,因为他们难以被简单的属性分类器控制。因此classifier-gudiance方法不再适用。Diffuseq提出了partially noising策略将条件文本整合进连续的扩散过程中。
具体而言,去噪网络的输入是目标文本和条件文本的拼接。在前向过程中,拼接起来的序列被部分打乱,噪声只添加到目标文本的部分,而条件文本保持不变。逆向过程从条件文本和随机噪声的拼接开始,整个过程中条件文本依旧保持不变,随机噪声被逐渐还原。Difformer和SeqDiffuSeq将完整的transformer作为去噪网络。Encoder负责生成条件文本的embedding表示,Decoder将被打乱的文本的embedding和条件文本的embedding通过cross-attention结合,进而预测打乱前的文本。

Semi-NAR Generation

SSD-LM引入了半非自回归的生成策略,迭代地生成一个大小为B的token block,每次生成的输入都是之前生成的block和一个随机噪声的拼接。新生成的block也会和此前的block拼接起来作为新的context。上述生成过程会重复至生成的文本达到想要的长度。这样的生成策略弥补了文本扩散模型的非自回归生成方式中缺少依赖的问题。

Additional Normalization

Difformer观察到少见的token往往比常见的token拥有更大的范数,但已有的文本扩散模型对不同token添加的噪声规模是相同的。因此少见的token需要更多的扩散步骤才能被完全打乱。因此Difformer引入了一个layer normalization模块将word embedding的大小约束到相同的水平。

展望

已有的文本扩散模型中的noise schedule大部分源自图像生成任务,在前向和去噪过程中平等对待所有的token。因此它们会忽视token在重要性和出现频率上的差异,导致对关键词或罕见词的生成不够准确等问题。DiffusionBERT中的spindle schedule对信息量更高的单词赋予了更高的权重并带来了明显的性能提升。针对文本数据并且任务相关的noise schedule需要进一步的研究。