NeurIPS 2023 Spotlight | 半监督与扩散模型结合，实现少标签下可控生成-526互联

前言本文从模型结构到训练策略，以及实验结果出发，详解了DeepMind之前提出的不需要归一化的深度学习模型NFNet。

本文转载自PaperWeekly

作者：游泽彬

单位：中国人民大学

仅用于学术分享，若侵权请联系删除

欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

CV各大方向专栏与各个部署框架最全教程整理

【CV技术指南】CV全栈指导班、基础入门班、论文指导班全面上线!!

论文题目：Diffusion Models and Semi-Supervised Learners Benefit Mutually with Few Labels

论文链接：

https://arxiv.org/abs/2302.10586

代码链接：

https://github.com/ML-GSAI/DPT

论文作者:

游泽彬，钟勇，鲍凡，孙嘉城，李崇轩，朱军

DPT的概览图

▲ Overview

主要的实验结果

生成的样本图

这里展示了一些生成的样本图，最上面是 512 分辨率的样本，每一类只用了五个标签。下面两行是 256 分辨率的样本，每一类仅使用了一个标签。可以看到，生成的样本图的质量很高，而且语义上也是可控的。

半监督生成和分类

▲ results

左边的图展示了半监督生成的结果，圆圈的圆心点对应的 y 值代表对应的 FID 结果，FID 是越低越好，代表生成的图像跟真实图像的差距越小。可以看到，随着使用的标签数量增加，FID 也不断减小，证明用的标签越多，一定程度上可以认为生成图像的质量越高，语义匹配程度也越好。同时，因为我们使用的生成器为 U-ViT，是一种领先的扩散模型，因此我们仅使用非常少的标签，比如小于 0.1% 的标签，就可以达到很好的效果，甚至超过一些使用全标注训练的扩散模型。

右边的图展示了半监督分类的结果。可以看到，生成式增强对于半监督分类有明显的增益作用。这主要得益于扩散模型在生成质量上相比于之前主流的生成模型，比如生成对抗网络，变分自编码器等，有了很大的提升。因此，生成的图像可以作为一种有效的数据增强手段，来提升半监督分类的性能。

分类器无法正确分类时，生成的图像

▲ fail_samples

在该图中，从左到右分别为每类使用了 1,2,5 个标签时，给定金鱼这个标签生成出来的图像，然后 P 跟 R 越低代表着对金鱼这个类分类越差，即有很多的金鱼图被分类为了其他的类别，同时也有很多的其他类别的图被分类为了金鱼。

当每一类使用了一个标签时，分器无法正确地为金鱼进行分类，此时生成器给定金鱼这个标签去生成时会生成出很多珊瑚的图，这主要是因为在分类时有很多珊瑚的图被分类为了金鱼，因此分类器就给生成器提供了非常多的错误语义的有标签数据。这是比较不好的。

但是随着我们标签使用的增加，生成的图质量会更好，同时在语义匹配程度上也会有提高。

主要贡献

我们提出了双重伪训练这种训练策略，简单有效，原则上能够结合任何一种半监督分类器和生成模型。我们得到了在半监督生成任务上的显著提升，特别地，我们在极少的标签数据（如<0.1%）下，扩散模型能够可控语义地生成高质量图像。在半监督分类任务上取得了领先的结果。证明了生成式数据增强对半监督分类任务的仍然是有帮助的。

欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

计算机视觉入门1v3辅导班

【技术文档】《从零搭建pytorch模型教程》122页PDF下载

QQ交流群：470899183。群内有大佬负责解答大家的日常学习、科研、代码问题。

其它文章

分享一个CV知识库，上千篇文章、专栏，CV所有资料都在这了

明年毕业，还不知道怎么做毕设的请抓紧机会了

LSKA注意力 | 重新思考和设计大卷积核注意力，性能优于ConvNeXt、SWin、RepLKNet以及VAN

CVPR 2023 | TinyMIM：微软亚洲研究院用知识蒸馏改进小型ViT

ICCV2023|涨点神器！目标检测蒸馏学习新方法，浙大、海康威视等提出

ICCV 2023 Oral | 突破性图像融合与分割研究：全时多模态基准与多交互特征学习

听我说，Transformer它就是个支持向量机