《Align before Fuse: Vision and Language Representation Learning with Momentum Distillation》 引言 VLP目标是从大规模图片-文本对子中学习到多模态表示,一次改进下游的视觉-语言任务。 VLP框架的局限性如下: ......
1. ALBEF: ALign the image and text BEfore Fusing 1.1 论文与代码链接: https://arxiv.org/abs/2107.07651 GitHub - salesforce/ALBEF: Code for ALBEF: a new ......