EVA: Visual Representation Fantasies from BAAI-526互联

本文做个简单总结，博主不是做自监督领域的，如果错误，欢迎指正。

EVA 是第一个开源的十亿级视觉基础模型，在广泛的下游任务上实现了最先进的性能。

使用可公开访问的训练数据，仅具有 304M 参数的 EVA-02 在 ImageNet-1K 验证集上实现了惊人的 90.0 微调 top-1 精度。
EVA-02-CLIP 在 ImageNet-1K 上可以达到高达 80.4 的零样本 top-1，优于之前最大、最好的开源 CLIP，仅需要约 1/6 的参数和约 1/6 的图像文本训练数据。

EVA02对原始ViT改进了结构（借鉴NLP上的一些改进Tricks）
EVA V1使用CLIP模型的视觉Encoder作为Teacher，EVA V2使用EVA-CLIP作为Teacher。EVA-CLIP 与之前的 CLIP 模型相比性能更强大，参数数量相同，但训练成本显著降低
EVA V2使用了更多的数据，多个开源公开的数据集合并到一起组成 Merged-38M，累计3800万张图片。
训练分为多阶段，
1. 在Merged-38M上进行MIM预训练，
2. 在ImageNet21K上进行finetuning，
3. 在ImageNet1K上做最后的finetuning。
4. EVA V2还支持微调多项下游任务，如目标检测，语义分割、实例分割等。