NeurIPS 2023 Spotlight | 半监督与扩散模型结合,实现少标签下可控生成

发布时间 2023-11-10 15:52:53作者: CV技术指南(公众号)
前言 本文从模型结构到训练策略,以及实验结果出发,详解了DeepMind之前提出的不需要归一化的深度学习模型NFNet。

本文转载自PaperWeekly

作者:游泽彬

单位:中国人民大学

仅用于学术分享,若侵权请联系删除

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

CV各大方向专栏与各个部署框架最全教程整理

【CV技术指南】CV全栈指导班、基础入门班、论文指导班 全面上线!!

论文题目:Diffusion Models and Semi-Supervised Learners Benefit Mutually with Few Labels

论文链接:

代码链接:

论文作者:

游泽彬,钟勇,鲍凡,孙嘉城,李崇轩,朱军

 

DPT的概览图

▲ Overview

 

主要的实验结果

生成的样本图

这里展示了一些生成的样本图,最上面是 512 分辨率的样本,每一类只用了五个标签。下面两行是 256 分辨率的样本,每一类仅使用了一个标签。可以看到,生成的样本图的质量很高,而且语义上也是可控的。

 

半监督生成和分类

▲ results

左边的图展示了半监督生成的结果,圆圈的圆心点对应的 y 值代表对应的 FID 结果,FID 是越低越好,代表生成的图像跟真实图像的差距越小。可以看到,随着使用的标签数量增加,FID 也不断减小,证明用的标签越多,一定程度上可以认为生成图像的质量越高,语义匹配程度也越好。同时,因为我们使用的生成器为 U-ViT,是一种领先的扩散模型,因此我们仅使用非常少的标签,比如小于 0.1% 的标签,就可以达到很好的效果,甚至超过一些使用全标注训练的扩散模型。

右边的图展示了半监督分类的结果。可以看到,生成式增强对于半监督分类有明显的增益作用。这主要得益于扩散模型在生成质量上相比于之前主流的生成模型,比如生成对抗网络,变分自编码器等,有了很大的提升。因此,生成的图像可以作为一种有效的数据增强手段,来提升半监督分类的性能。

分类器无法正确分类时,生成的图像

▲ fail_samples

在该图中,从左到右分别为每类使用了 1,2,5 个标签时,给定金鱼这个标签生成出来的图像,然后 P 跟 R 越低代表着对金鱼这个类分类越差,即有很多的金鱼图被分类为了其他的类别,同时也有很多的其他类别的图被分类为了金鱼。

当每一类使用了一个标签时,分器无法正确地为金鱼进行分类,此时生成器给定金鱼这个标签去生成时会生成出很多珊瑚的图,这主要是因为在分类时有很多珊瑚的图被分类为了金鱼,因此分类器就给生成器提供了非常多的错误语义的有标签数据。这是比较不好的。

但是随着我们标签使用的增加,生成的图质量会更好,同时在语义匹配程度上也会有提高。

更多阶段

▲ more_stages

从概览图可以看出,目前 DPT 主要分为三个阶段,但是第三个阶段产生的分类器相比于第一阶段有一定的提高,那么一个比较关系的话题就是,当使用第三个阶段得到的分类器重新为生成器提供伪标签,是否会取得更好的效果。

我们发现,当使用更好的伪标签时,在生成指标上都有了一定的提高,证明我们 DPT 的三个阶段能够形成一种正向循环,来迭代的提高伪标签的准确率和伪图像的语义匹配程度。使得生成的图质量更高,语义更准。

主要贡献

我们提出了双重伪训练这种训练策略,简单有效,原则上能够结合任何一种半监督分类器和生成模型。我们得到了在半监督生成任务上的显著提升,特别地,我们在极少的标签数据(如<0.1%)下,扩散模型能够可控语义地生成高质量图像。在半监督分类任务上取得了领先的结果。证明了生成式数据增强对半监督分类任务的仍然是有帮助的。

 

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

计算机视觉入门1v3辅导班

【技术文档】《从零搭建pytorch模型教程》122页PDF下载

QQ交流群:470899183。群内有大佬负责解答大家的日常学习、科研、代码问题。

其它文章

分享一个CV知识库,上千篇文章、专栏,CV所有资料都在这了

明年毕业,还不知道怎么做毕设的请抓紧机会了

LSKA注意力 | 重新思考和设计大卷积核注意力,性能优于ConvNeXt、SWin、RepLKNet以及VAN

CVPR 2023 | TinyMIM:微软亚洲研究院用知识蒸馏改进小型ViT

ICCV2023|涨点神器!目标检测蒸馏学习新方法,浙大、海康威视等提出

ICCV 2023 Oral | 突破性图像融合与分割研究:全时多模态基准与多交互特征学习

听我说,Transformer它就是个支持向量机

HDRUNet | 深圳先进院董超团队提出带降噪与反量化功能的单帧HDR重建算法

南科大提出ORCTrack | 解决DeepSORT等跟踪方法的遮挡问题,即插即用真的很香

1800亿参数,世界顶级开源大模型Falcon官宣!碾压LLaMA 2,性能直逼GPT-4

SAM-Med2D:打破自然图像与医学图像的领域鸿沟,医疗版 SAM 开源了!

GhostSR|针对图像超分的特征冗余,华为诺亚&北大联合提出GhostSR

Meta推出像素级动作追踪模型,简易版在线可玩 | GitHub 1.4K星

CSUNet | 完美缝合Transformer和CNN,性能达到UNet家族的巅峰!

AI最全资料汇总 | 基础入门、技术前沿、工业应用、部署框架、实战教程学习

计算机视觉入门1v3辅导班

计算机视觉交流群