Multimodal

【五期杨志】CCF-A(CVPR'22) Dual-Key Multimodal Backdoors for Visual Question Answering

Walmer M, Sikka K, Sur I, et al. Dual-Key Multimodal Backdoors for Visual Question Answering[C]//Proceedings of the IEEE/CVF Conference on Computer Vi ......

Instruction-Following Agents with Multimodal Transformer

概述 提出了InstructRL,包含一个multimodal transformer用来将视觉obs和语言的instruction进行编码,以及一个transformer-based policy,可以基于编码的表示来输出actions。 前者在1M的image-text对和NL的text上进行训 ......

M3AE: Multimodal Representation Learning for Brain Tumor Segmentation with Missing Modalities

摘要 提出SimCLR,用于视觉表征的对比学习,简化了最近提出的对比自监督学习算法,为了理解是什么使对比预测任务能够学习有用的表示,系统研究了提出框架的主要组成部分,发现: (1)数据增强的组成在定义有效的预测任务中起着关键的作用 (2)在表示和对比损失之间引入一个可学习的非线性变换,大大提高了已学 ......
共3篇  :1/1页 首页上一页1下一页尾页