alias: Fan2023
tags: RetNet
rating: ⭐
share: false
ptype: article

RMT: Retentive Networks Meet Vision Transformers

初读印象

comment:: (RMT)Retentive Network（RetNet）因其显式衰减机制而在自然语言处理中受到关注，但它不适合基于图像的任务。本文提出了保留性自我注意力 (reSA)，这是一种专为视觉模型设计的双向二维显性衰减形式注意力。

Why

NLP中RetNet提高了推理速度。在 RetNet 中，显式衰减机制是专为语言数据设计的，表现为单向、一维的建模衰减过程，为模型提供了基于距离变化的先验知识。除此之外，RetNet 还采用了线性注意，用门激活取代了自注意中的softmax。这两个因素使 RetNet 具有很高的灵活性和良好的性能，使其能够通过三种操作形式适应并行训练和递归推理（自回归推理）的要求。

以上特点不能直接用于视觉模型，图像中的标记需要双向、二维建模。此外，虽然语言模型是并行训练的，但它们必须以顺序的方式用于自回归推理。这与视觉主干不同，后者在训练和推理过程中都使用相同的并行形式。

What

RetNet

RetNet以循环的方式考虑序列建模问题：

Pasted image 20231121165145 在为了并行训练，以上公式改为： Pasted image 20231121165857
]

变量$θ_n$定义为$e^{inΩ}$，其中 i 是虚数单位，n 是参数，Ω 是一个常数。
$D\in\mathbb{R}^{|x|\times|x|}$包含因果掩蔽和指数衰减：
- 如果 n 大于或等于 m，则 $d_{nm}$ 等于 $γ^ (n-m)$，其中 γ是衰减因子；否则， $d_{nm}$ 等于 0。