神经网络

发布时间 2023-12-21 08:52:39作者: 梅丹隆

image.png
模型演进
image.png
卷积神经网络--循环神经网络--Transformer

卷积神经网络 CNN

主要处理图像的神经网络
卷积本身是一种数学计算
image.png
先观察--再记忆存储

循环神经网络 RNN

image.png
语义存在上下文的前后依赖关系
image.png
循环神经网络的上一级节点的输出继续往下一级进行传递,事后对序列数据的上下文影响进行建模
image.png
后续的每一个节点都会接收来自前续节点的信息
image.png
第五个节点依然持有来自第一个节点的信息

缺陷

  1. 文本越长,后面的语义越容易丢失掉前面的语义携带
  2. 序列的依赖关系使得RNN无法进行并行计算,训练效率低

RNN结构的优化依然无法解决这核心的两个缺陷
image.png

Transformer

image.png
文本的位置信息和单词编码在一起
image.png
对单词间的关系进行建模
解决问题:

  1. 不在需要序列前后依赖关系,序列数据长时间依赖的问题不存在了
  2. 序列的并行计算成为可能
  3. Transformer的基础结构可以像积木一样组装,设计大的模型结构变得非常容易

image.png

什么是注意力机制

image.png
eating和apple的相关度是最高的,其他的词依次排后

图像领域

将图像切分为小块,对每一小块进行编码,同样可以用Transformer进行处理,计算原理相同。一句话有一句话的语义,一张图有一张图的图意
image.png
Transformer更适用于海量数据训练的场景,数据越多性能越好