Multimodal

【五期杨志】CCF-A（CVPR'22） Dual-Key Multimodal Backdoors for Visual Question Answering

Walmer M, Sikka K, Sur I, et al. Dual-Key Multimodal Backdoors for Visual Question Answering[C]//Proceedings of the IEEE/CVF Conference on Computer Vi ......

Multimodal Backdoors Answering Dual-Key Question更新时间 2023-12-29

Instruction-Following Agents with Multimodal Transformer

概述提出了InstructRL，包含一个multimodal transformer用来将视觉obs和语言的instruction进行编码，以及一个transformer-based policy，可以基于编码的表示来输出actions。前者在1M的image-text对和NL的text上进行训 ......

Instruction-Following Instruction Transformer Multimodal Following更新时间 2023-12-16

M3AE: Multimodal Representation Learning for Brain Tumor Segmentation with Missing Modalities

摘要提出SimCLR，用于视觉表征的对比学习，简化了最近提出的对比自监督学习算法，为了理解是什么使对比预测任务能够学习有用的表示，系统研究了提出框架的主要组成部分，发现：（1）数据增强的组成在定义有效的预测任务中起着关键的作用（2）在表示和对比损失之间引入一个可学习的非线性变换，大大提高了已学 ......

Representation Segmentation Multimodal Modalities Learning更新时间 2023-04-20

共3篇 :1/1页 首页上一页1下一页尾页

526互联

Multimodal

【五期杨志】CCF-A（CVPR'22） Dual-Key Multimodal Backdoors for Visual Question Answering

Instruction-Following Agents with Multimodal Transformer

M3AE: Multimodal Representation Learning for Brain Tumor Segmentation with Missing Modalities