ICCV 2023 Oral | 突破性图像融合与分割研究：全时多模态基准与多交互特征学习-526互联

前言本篇文章介绍来自大连理工大学的论文Multi-interactive Feature Learning and a Full-time Multi-modality Benchmark for Image Fusion and Segmentation，收录于 ICCV 2023 Oral，研究用于图像融合和分割的多交互特征学习和全时多模态基准。

本文转载自我爱计算机视觉

仅用于学术分享，若侵权请联系删除

欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

CV各大方向专栏与各个部署框架最全教程整理

【CV技术指南】CV全栈指导班、基础入门班、论文指导班全面上线!!

文章链接：https://arxiv.org/pdf/2308.02097.pdf
论文作者：Jinyuan Liu, Zhu Liu, Guanyao Wu, Long Ma, Risheng Liu, Wei Zhong, Zhongxuan Luo, and Xin Fan
代码链接：https://github.com/JinyuanLiu-CV/SegMiF

引言

实现感知友好的视觉表达和精确的语义理解是多模态图像融合的两大基本目标。现有大部分方法都仅考虑提升融合图像的视觉效果，忽略了对下游高级视觉任务的支持。目前也有一些研究尝试通过级联融合与感知网络设计联合框架，结合加权损失函数实现端到端学习。

本文认为这些方案仍存在两个核心挑战：

同时为视觉感知与语义理解任务寻找合适的特征是非常困难的。
现有的多模态数据集仅关注图像融合效果，或者缺少与图像对应的分割标签，为融合与分割任务的探索带来阻碍。

为了解决上述问题，我们提出了一个语义特征引导多交互式特征学习架构：SegMiF (Multi-interactive Feature learning architecture for image fusion and Segmentation)。

该网络结构包括融合子网络与分割子网络以及分层交互注意力块 Hierarchical Interactive Attention (HIA)。通过引入多任务动态权重因子实现对融合特征自适应学习。

另外，我们还构建了市面上最全标注率（98.16%），高精度配准，15 个类别涵盖多种挑战场景的多模态语义分割数据集 Full-time Multi-modality Benchmark (MFB)。

方法

为了实现融合与后续感知任务的统筹兼顾，本文将融合与分割任务的求解联合定制为一个优化目标：

其中 g(·) 是联合优化两个任务约束项，我们通过分层注意力 (HIA) 来实现这一目标。

分层注意力机制 HIA 可以构建模态特征 , 和分割特征的精细映射，从而使模态/语义特征能够完全相互作用，具体如下图所示：

分层注意力机制包括面向语义与面向模态的两类注意力机制，通过引入语义信息，提出机制可以实现融合特征对下游任务的高效表达。

通过观察损失值的下降速率以优化网络的收敛过程，本文引入了任务动态权重因子来自动调整每个任务间相应权重，从而平衡交互特征对应关系，克服了繁琐的手工调整。通过下述公式实现第i个任务的动态权重设置：

此外，我们构建了一个智能多波段双目成像系统，并收集了一个用于融合和分割且内有15个像素级类别注释的多模态场景解析数据集。该数据集标注率高达98.16%，包含在不同光照条件下的各种真实驾驶场景，还包括带有雨、雾、强光等特殊情况的挑战场景。所提出的数据集克服了领域现存数据类别较少、注释稀疏和场景单调的问题，旨在促进实际的自动驾驶和语义理解任务的发展。