Visual Transformer 与归纳偏置-526互联

开端

ViT（Visual Transformer）是 2020 年 Google 团队提出的将 Transformer 应用在图像分类的模型，但是当训练数据集不够大的时候，ViT 的表现通常比同等大小的 ResNets 要差一些。

为什么呢？寻找答案的过程中，发现了 归纳偏置 这个概念。

Transformer 结构缺乏 CNN 网络先天的归纳偏置，因此需要足够多训练数据才能有更好的表现^[1]。

归纳偏置（inductive biases），指的是模型在预测其未遇到过的输入结果时，所做的假设^[2]。

卷积网路，假设了数据的特征具有局部性和平移不变性；循环神经网络，假设了数据具有序列相关性和时序不变性……^[3]

就像人类可以利用已有经验快速认识未知的事物，模型的 “经验” 就被称为归纳偏置。合理的 “经验” 不仅能让网络模型能够更轻松学习到数据的特征，还能提高模型的泛化能力（认识未知事物的能力）。

具体举例来说，虽然循环神经网络的 “经验” 并不完美（输入序列不一定都是时序性的），但如果绝输入序列大都是时序性的（比如语言），循环神经网络就更容易学习到输入序列的信息。

Dosovitskiy, Alexey, et al. "An image is worth 16x16 words: Transformers for image recognition at scale." arXiv preprint arXiv:2010.11929 (2020). https://arxiv.org/abs/2010.11929v2 ↩︎
https://en.wikipedia.org/wiki/Inductive_bias ↩︎
Goyal, Anirudh, and Yoshua Bengio. "Inductive biases for deep learning of higher-level cognition." Proceedings of the Royal Society A 478.2266 (2022): 20210068. https://arxiv.org/abs/2011.15091 ↩︎