attention

发布时间 2023-04-03 16:50:09作者: jinganglang567

attention机制

attention的核心逻辑类似人类观察图片的逻辑,当人类观察一张陌生的图片时,并没有完全看清整个图片,而是把注意力集中到了图片焦点上。所以attention的逻辑就是从关注全部到关注重点。

人类的视觉系统就是一种attention机制,将有限的注意力集中在重点信息上,从而节省资源,快速获得最有效的信息。

attention机制是NLP和BERT的核心。

长距离的信息会被弱化,类似记忆能力弱的人,记不住过去的事情。attention是挑重点,就算文本比较长,也能从中间抓住重点,不丢失重要信息。

attention原理可以看作3个步骤,将query和key值进行相似度计算,得到权值,计算方法可以使用点乘算法,矩阵相乘和cos相似度等算法。计算出权值后将权值归一化,得到可以直接用的权重,将权重和value加权求和。

attention的计算区域有很多种,根据计算区域的key值划分。

soft attention是比较常见的attention方式,对所有key求权重概率,每个key都有一个对应的的权重,是一种全局的计算方式。

hard attention这种方式是直接精准定位到某个key,相当于这个key的概率是1,其余的概率是0。

local attention是两种方式的折中,对一个领域进行计算时,先使用hard attention的方法定位到某个点,然后以这个点为中心得到一个窗口领域,在窗口区域中再使用soft attention计算。