ALBEF-ITC

ALBEF-ITC损失部分

《Align before Fuse: Vision and Language Representation Learning with Momentum Distillation》 引言 VLP目标是从大规模图片-文本对子中学习到多模态表示,一次改进下游的视觉-语言任务。 VLP框架的局限性如下: ......
ALBEF-ITC 损失 部分 ALBEF ITC
共1篇  :1/1页 首页上一页1下一页尾页