DHVT:在小数据集上降低VIT与卷积神经网络之间差距,解决从零开始训练的问题

发布时间 2023-05-31 09:58:21作者: deephub

VIT在归纳偏置方面存在空间相关性和信道表示的多样性两大缺陷。所以论文提出了动态混合视觉变压器(DHVT)来增强这两种感应偏差。

在空间方面,采用混合结构,将卷积集成到补丁嵌入和多层感知器模块中,迫使模型捕获令牌特征及其相邻特征。

在信道方面,引入了MLP中的动态特征聚合模块和多头注意力模块中全新的“head token”设计,帮助重新校准信道表示,并使不同的信道组表示相互交互。

Dynamic Hybrid Vision Transformer (DHVT)

完整文章:

https://avoid.overfit.cn/post/806ce15b180440d988de5f76e22a2aaf