模型演进
卷积神经网络--循环神经网络--Transformer
卷积神经网络 CNN
主要处理图像的神经网络
卷积本身是一种数学计算
先观察--再记忆存储
循环神经网络 RNN
语义存在上下文的前后依赖关系
循环神经网络的上一级节点的输出继续往下一级进行传递,事后对序列数据的上下文影响进行建模
后续的每一个节点都会接收来自前续节点的信息
第五个节点依然持有来自第一个节点的信息
缺陷
- 文本越长,后面的语义越容易丢失掉前面的语义携带
- 序列的依赖关系使得RNN无法进行并行计算,训练效率低
Transformer
文本的位置信息和单词编码在一起
对单词间的关系进行建模
解决问题:
- 不在需要序列前后依赖关系,序列数据长时间依赖的问题不存在了
- 序列的并行计算成为可能
- Transformer的基础结构可以像积木一样组装,设计大的模型结构变得非常容易
什么是注意力机制
图像领域
将图像切分为小块,对每一小块进行编码,同样可以用Transformer进行处理,计算原理相同。一句话有一句话的语义,一张图有一张图的图意
Transformer更适用于海量数据训练的场景,数据越多性能越好