CVPR 2023 冠军解决方案，零样本异常分割新突破！-526互联

前言本文介绍了CVPR2023 冠军解决方案，零样本异常分割新突破！

本文转载自我爱计算机视觉

仅用于学术分享，若侵权请联系删除

欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

论文题目为Winning Solution for the CVPR2023 Visual Anomaly and Novelty Detection Challenge: Multimodal Prompting for Data-centric Anomaly Detection。

详细信息如下：

作者：Yunkang Cao ;Xiaohao Xu ;Chen Sun等人
作者机构：State Key Laboratory of Digital Manufacturing Equipment and Technology(数字化制造装备与技术国家重点实验室)；Huazhong University of Science and Technology, China(华中科技大学)等
论文链接：https://arxiv.org/pdf/2306.09067.pdf
项目链接：https://github.com/caoyunkang/Segment-Any-Anomaly

本报告介绍了团队Segment Any Anomaly在 CVPR2023 视觉异常与新奇检测挑战赛中的获胜解决方案。该解决方案名为Segment Any Anomaly +（SAA+），通过使用多模态提示实现了零样本异常分割，以及级联现代基础模型的正则化。首先，通过将基础模型如"Segment Anything"进行组合（SAA），利用多模态先前知识实现异常定位。随后，引入多模态提示（SAA+），这些提示来自领域专家知识和目标图像上下文，从而使基础模型在异常分割中能够进行非参数适应。

所提出的SAA+模型在零样本设置下，在多个异常分割基准数据集上（包括VisA和MVTec-AD）取得了最先进的性能

1 引言

本文介绍了在零样本异常分割领域的研究工作。通过使用基础模型、语言提示和分割方法，作者旨在在图像中进行异常分割。然而，简单的语言提示可能会导致误报问题，而且在领域转移和上下文不明确的情况下表现不佳。为了解决这些问题，作者提出了一种新的框架——Segment Any Anomaly +（SAA+），其中融合了领域专家知识和目标图像上下文。专家知识提供了与目标相关的异常详细描述，而上下文提示能够准确地关联目标图像中的物体上下文和异常预测。这一方法在多个异常分割基准数据集上取得了最先进的性能。总之，通过引入专家知识和目标上下文，作者的方法在零样本异常分割任务中取得了显著的改进。

2 从纯粹的基础模型组合开始，带有语言提示

本节介绍了从纯粹的基础模型组合开始，通过语言提示进行零样本异常分割（ZSAS）的研究。作者构建了一个基线模型SAA，其中包含异常区域生成器和异常区域细化器。然而，实验表明纯粹的语言提示可能导致语言歧义问题。为了解决这个问题，作者提出了引入领域专家知识和目标图像上下文生成多模态提示的方法，从而改进ZSAS的性能。这一方法在减少数据需求和降低实际成本方面具有潜在的优势。

3 利用多模态提示调适基础模型进行异常分割

为了解决SAA中的语言歧义问题并提升其在ZSAS上的能力，作者提出了升级版的SAA+，该版本融合了多模态提示，如图2所示。除了利用预训练基础模型所获取的知识外，SAA+还利用领域专家知识和目标图像上下文生成更准确的异常区域掩码。

3.1 从领域专家知识生成的提示

本节介绍了一种升级版的异常分割方法SAA+，旨在通过利用领域专家知识和多模态提示解决语言歧义问题，并提高零样本异常分割（ZSAS）任务的性能。SAA+利用了专家知识生成更准确的异常区域掩码，包括异常语言提示和异常属性提示。异常语言提示通过类别无关和类别特定提示细化了“异常”提示，异常属性提示考虑了异常的位置和面积信息。通过结合这两种多模态提示，SAA+在异常分割中获得更精确的结果。

3.2 从目标图像上下文中衍生的提示

本节介绍了从目标图像上下文中衍生的多模态提示，用于提高异常区域检测的准确性。异常显著性提示利用显著性图来校准基础模型的置信度分数，而异常置信度提示通过选择最高置信度的候选区域来提供最终的异常区域检测。结合这两种提示以及之前的多模态提示，SAA+被提出，为异常分割任务提供更准确可靠的预测。

4 实验

首先评估SAA/SAA+在几个异常分割基准上的性能。然后，作者广泛研究个人多模态提示的有效性。

4.1 实验设置

数据集：利用两个带有像素级标注的数据集：VisA和 MVTec-AD ，两者都包括各种对象子集，例如电路板。

评价指标：以max-F1-pixel (Fp) 作为评估指标来评价ZSAS性能，该指标在最优阈值下衡量像素级分割的F1得分。

实现细节：采用GroundingDINO和 SAM 的官方实现构建了基准模型SAA。有关从领域专家知识派生的提示的详细信息可以在补充材料中找到。对于从图像内容引发的显著性提示，使用在ImageNet上预训练的WideResNet50 网络，并根据先前的研究将N设置为400。对于异常置信度提示，将超参数K默认设置为5。输入图像分辨率固定为400 × 400。

4.2 主要结果

比较方法：将作者的最终模型，即Segment Any Anomaly + (SAA+)，与几种当前最先进的方法进行比较，包括WinClip 、UTAD 、ClipSeg和作者的基准模型 (SAA)。对于WinClip，作者报告其在VisA和MVTec-AD上的官方结果。对于其他三种方法，作者使用官方实现并将其调整为ZSAS任务。

定量结果：如表1所示，SAA+方法在Fp方面的性能明显优于其他方法。尽管WinClip、ClipSeg 和 SAA 也使用了基础模型，但SAA+能更好地发挥基础模型的能力并使其适应ZSAS任务。SAA+的出色性能满足了在不需要训练的情况下分割任何异常的期望。

定性结果：图3呈现了SAA+与先前竞争方法之间的定性比较，其中SAA+实现了更好的性能。此外，可视化结果显示SAA+能够检测各种类型的异常。

4.3 消融实验

在表2中，作者进行了分量分析，以消融作者框架中的特定提示设计，从而验证了所有多模态提示的有效性，包括语言提示 (PL)、属性提示 (PP)、显著性提示 (PS) 和置信度提示 (PC)。

5 结论

本研究通过引入多模态提示（领域专家知识、图像上下文等）来规范化现代基础模型，实现了在零样本情况下分割任何异常的目标。该方法利用了各种提示来提高基础模型在异常分割任务中的性能，从而在多个基准测试中取得了新的最先进结果。核心方法是使用多模态提示来实现无需额外训练的异常分割，为视觉异常检测领域提供了新的解决思路。

欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

计算机视觉入门1v3辅导班

【技术文档】《从零搭建pytorch模型教程》122页PDF下载

QQ交流群：470899183。群内有大佬负责解答大家的日常学习、科研、代码问题。

其它文章

新认识了几位专注AI的大佬！

如何看待稚晖君的时间管理水平？

重新思考视频超分辨 Transformers 中的对齐

RecursiveDet | 超越Sparse RCNN，完全端到端目标检测的新曙光

ICCV 2023 | ReDB：可靠、多样、类平衡的域自适应3D检测新方案！

大厂必考深度学习面试题及参考答案

ICCV2023 | 清华大学提出FLatten Transformer，兼顾低计算复杂度和高性能