SAM-U升级SAM | 带你分析SAM的弱点并重新优化设计填补空缺

发布时间 2023-08-13 12:41:52作者: CV技术指南(公众号)
前言 最近,SAM向通用人工智能迈出了重要的一步。同时,它的可靠性和公平性也引起了人们的极大关注,尤其是在医疗保健领域。在这项研究中,作者提出了SAM线索的 Multi-box 即时触发不确定性估计,以证明分割病变或组织的可靠性。作者使用具有先验分布参数的蒙特卡罗来估计SAM预测的分布,使用不同的prompt作为测试时间增加的公式。

本文转载自集智书童

仅用于学术分享,若侵权请联系删除

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

CV各大方向专栏与各个部署框架最全教程整理

【CV技术指南】CV全栈指导班、基础入门班、论文指导班 全面上线!!

1、简介

大规模基础模型在人工智能研究人员中越来越受欢迎。在自然语言处理(NLP)领域,OpenAI开发的生成预训练转换器(GPT)和ChatGPT由于其卓越的泛化能力而快速增长。这些模型在自动驾驶和医疗保健等不同领域都有应用。大模型显著的泛化能力往往会在用户中灌输信任感;然而,它们的公平性和可靠性也受到了一定程度的审查。

如今,由于Meta AI发布了Segment Anything Model(SAM),人们对计算机视觉的热情与日俱增。SAM是在一个庞大的SA-1B数据集上训练的,该数据集由1100多万张图像和10亿个Mask组成,使其成为一个出色的工具。它擅长从各种类型的prompt中生成准确的分割结果,包括前景/背景点、thick boxes 或Mask以及自由格式文本。

SAM的引入让许多研究人员相信,通用人工智能终于到来了。然而,一些研究人员对SAM的性能表示担忧。具体而言,他们已经确定了医学图像中需要进一步改进的领域,如工业缺陷检测、伪装目标检测以及肿瘤和病变分割。此外,SAM的可靠性仍需进一步研究。

不确定性估计是为SAM提供可靠性的方法之一。此前,不确定性估计已在几个医学分割任务中证明了其可靠性和稳健性,包括皮肤病变和脑肿瘤等。目前的不确定性估计方法大致可分为基于确定性的方法、Bayesian Neural Network-based的方法、Ensemble-based的方法、Dropout-based的方法和Test-time augmentation-based的方法。本文的重点是在实现像素级不确定性估计的同时,保持SAM的简单性和原始结构。

在图1中,作者给出了不同条件下高质量和低质量眼底图像的视盘分割结果。SAM为高质量图像展示了更好的分割结果,并且包含不同的条件会带来一定的性能改进。然而,SAM对低质量图像的分割结果并不令人满意。尽管如此,包含不同条件大大提高了它的性能,尤其是使用更准确的方框prompt。

此外,作者观察到一种现象,即不同级别的框prompt往往会产生不同的结果。这一观察结果促使作者为医学图像引入一种新的方法,即 Multi-box prompt诱导的不确定性估计。因此,本文的主要关注点是通过使用多个框prompt来提高分割精度。这种方法使作者能够通过不确定性估计来建立像素级的可靠性。

具体来说,作者使用SAM来预测使用不同 Multi-box prompt的输出分布。带有 Multi-box prompt的SAM从预测分布中生成大量样本。随后,这些样本被用于计算方差,这为医学图像分割提供了不确定性估计。作者的实验表明, Multi-box prompt不仅提高了低质量医学图像的性能,而且为它们提供了不确定性估计。

2、本文方法

作者提出的方法的总体框架如图2所示。作者的主要重点是在零样本学习的背景下提高SAM的可靠性和准确性。为了提高SAM的准确性,作者引入了 Multi-box prompt,这使作者能够从分布中获得更精确的医学图像分割结果。具体而言,作者使用具有先验分布参数的蒙特卡罗模拟来估计SAM预测的分布。这种方法允许作者的方法通过考虑单个医学图像的多个预测来估计任意不确定性。

2.1、Mask选择策略

在未经prompt的设置下,SAM生成多个二进制Mask,并可以在一个输入中弹出几个潜在对象。为了在特定的分割任务中公平地评估感兴趣的区域,作者遵循[SAM Struggles in Concealed Scenes – Empirical Study on “Segment Anything”]的策略,根据其 GT Mask选择最合适的Mask。

形式上,给定输入图像的N个二进制预测和 GT G,作者计算每对的Dice分数,以生成一组评估分数。作者最后从这一组中选出Dice得分最高的面具。

2.2、Multi-box prompts SAM

prompt由于其固有的不精确性,可能会在模型的推断中引入错误。为了减少prompt变化的影响。作者随机化M个框prompt =。每个框prompt引导SAM生成不同的分割结果。

通过该策略,作者获得了不同先验线索下SAM的预测,将它们结合起来可以提高SAM的分割精度,减少不确定性。组合预测计算如下:

2.3、使用multi-box prompts对SAM的不确定度进行估计

不同的框prompt会导致SAM分割的差异,即使它们指的是人类视野中的一个对象。受此启发,作者提出的 Multi-box prompt(MNP)算法模拟了多个临床专家的注释,以生成最终预测和不确定性估计。量化由 Multi-box prompt触发的不确定性。

假设M框prompt,所有这些都指的是 GT 。在M框prompt和输入图像I的情况下,SAM生成一组预测。如图3所示,作者提出了一个 Multi-box prompt的不确定性估计程序。

作者首先通过熵描述来自单个给定图像I的任意不确定性:

估计图像i的预测的多样性。然后,作者使用 Multi-box prompt进行蒙特卡罗模拟,以获得一组预测。因此,不确定性分布近似如下:

3、实验

3.1、定量分析

如表1所示,作者使用高质量的医学图像给出了SAM模式的不同分割结果。首先,作者比较了SAM在“everything”模式下和SAM在“box”模式下对正常医学图像的分割结果。

研究发现,在“box”模式下使用SAM的结果是优越的。此外,随着作者算法的引入,SAM的性能进一步提高。

表2和表3展示了在高斯噪声和退化医学图像下SAM模式的各种分割结果。作者比较了从上述SAM模式获得的结果。SAM在“everything”模式和“box”模式下的性能有所下降,而“multi-box”模式的性能保持在一定水平,ECE指数较低。因此,可以得出结论, Multi-box prompt的加入提高了SAM的准确性和可靠性。

3.2、定性比较

如图4所示,作者首先展示了multi-box模式SAM下的不确定性估计结果。从中可以看出,眼盘的周边被清楚地标记为不确定区域。

此外,作者比较了正常和退化医学图像下不同SAM模式的分割结果,如图5所示。在SAM with everything模式中,很难分割眼盘。在框prompt下,正常情况下可以对视盘进行分割,但在高斯噪声和退化图像下的分割结果并不令人满意。而作者的方法也在退化图像中获得了更好的分割结果,并为不确定的像素提供了权重。这为SAM开辟了一个新的范式,以实现稳健可靠的医学图像分割。

4、讨论与总结

在本文中,作者研究了SAM对眼底图像的分割性能。结果表明,框prompt显著提高了分割效果,但不同的框prompt会导致预测的变化。本文提出的主要方法,即快速增强,可以帮助估计任意不确定性的变化,并生成一个不确定性分布图,突出分割的挑战区域。

不确定性图不仅改进了分割过程和最终结果,而且能够开发出更先进的眼底图像分割方法。此外,不确定性图在需要手动注释的领域提供了宝贵的指导。使用不确定性分布图来指导分割并提高精度的特点值得注意。此外,不确定性图可以帮助识别潜在的分割错误并支持进一步的分析,为临床医生提供有用的信息。

5、参考

[1].SAM-U: Multi-box prompts triggered uncertainty estimation for reliable SAM in medical image.

 

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

计算机视觉入门1v3辅导班

【技术文档】《从零搭建pytorch模型教程》122页PDF下载

QQ交流群:470899183。群内有大佬负责解答大家的日常学习、科研、代码问题。

其它文章

新认识了几位专注AI的大佬!

如何看待稚晖君的时间管理水平?

重新思考 视频超分辨 Transformers 中的对齐

RecursiveDet | 超越Sparse RCNN,完全端到端目标检测的新曙光

ICCV 2023 | ReDB:可靠、多样、类平衡的域自适应3D检测新方案!

大厂必考深度学习面试题及参考答案

ICCV2023 | 清华大学提出FLatten Transformer,兼顾低计算复杂度和高性能

ICCV'23 | MetaBEV:传感器故障如何解决?港大&诺亚新方案!

ICCV 2023 | 旷视研究院入选论文亮点解读

RCS-YOLO | 比YOLOv7精度提高了2.6%,推理速度提高了60%

国产130亿参数大模型免费商用!性能超Llama2-13B支持8k上下文,哈工大已用上

KDD 2023奖项出炉!港中文港科大等获最佳论文奖,GNN大牛Leskovec获创新奖

大连理工联合阿里达摩院发布HQTrack | 高精度视频多目标跟踪大模型

ICCV 2023 | Actformer:从单人到多人,迈向更加通用的3D人体动作生成

ReID专栏(二)多尺度设计与应用

ReID专栏(一) 任务与数据集概述

libtorch教程(三)简单模型搭建

libtorch教程(二)张量的常规操作

libtorch教程(一)开发环境搭建:VS+libtorch和Qt+libtorch

NeRF与三维重建专栏(三)nerf_pl源码部分解读与colmap、cuda算子使用

NeRF与三维重建专栏(二)NeRF原文解读与体渲染物理模型

NeRF与三维重建专栏(一)领域背景、难点与数据集介绍

异常检测专栏(三)传统的异常检测算法——上

异常检测专栏(二):评价指标及常用数据集

异常检测专栏(一)异常检测概述

BEV专栏(二)从BEVFormer看BEV流程(下篇)

BEV专栏(一)从BEVFormer深入探究BEV流程(上篇)

可见光遥感图像目标检测(三)文字场景检测之Arbitrary

可见光遥感目标检测(二)主要难点与研究方法概述

可见光遥感目标检测(一)任务概要介绍

TensorRT教程(三)TensorRT的安装教程

TensorRT教程(二)TensorRT进阶介绍

TensorRT教程(一)初次介绍TensorRT

AI最全资料汇总 | 基础入门、技术前沿、工业应用、部署框架、实战教程学习

计算机视觉入门1v3辅导班

计算机视觉交流群

聊聊计算机视觉入门