Learning Transferable Visual Models From Natural Language Supervision-526互联

Learning Transferable Visual Models From Natural Language Supervision

作者：Alec Radford *1 Jong Wook Kim *1 Chris Hallacy 1 Aditya Ramesh 1 Gabriel Goh 1 Sandhini Agarwal 1 Girish Sastry 1 Amanda Askell 1 Pamela Mishkin 1 Jack Clark 1 Gretchen Krueger 1 Ilya Sutskever 1

OpenAI

发表年份：2021

1. Introduction and Conclusion

Problems

Could scalable pre-training methods which learn directly from web text result in a similar breakthrough in computer vision?

Contributions

main contribution is studying its behavior at large scale.

利用自然语言的文本信息，作为监督信号来学习视觉特征。

Motivation

背景：直接从原始文本中学习的预训练方法在过去几年中彻底改变了 NLP，实现了零样本迁移到下游数据。比如gpt-3一类的模型，几乎不需要特定于数据集的训练数据。而当前的计算机视觉（CV）模型通常被训练用于预测有限的物体类别，这样的模型通常还需要额外的标注数据来完成训练时未曾见过的视觉“概念”。在NLP中，预训练的方法目前已经被验证很成功，直接从网络文本中学习的可扩展预训练方法能否在计算机视觉领域带来类似的突破？

使用自然语言学习的方法可以从互联网上大量的文本数据中学习；

与大多数无监督或自监督的学习方法相比，从自然语言中学习不只是学习一个表征，而且还将该表征与语言联系起来，从而实现灵活的zero-shot learning。

2. Method

工作的核心是从自然语言与图像配对的监督中学习感知

1. Creating a Sufficiently Large Dataset - 400 million (image, text) pairs

2. Selecting an Efficient Pre-Training Method - contrastive representation learning