Attention、Self-Attention 与 Multi-Head Attention-526互联

Corpus语料库与DB数据库

World Knowledge世界常识库：OALD牛津高阶/Synonyms/Phrases/…, 新华字典/成语词典/辞海, 行业词典，大英百科，Wikipedia，…
全局信息： Corpus语料库、行业通用数据库(例如Springer/Google Scholar/Academia/…学术数据库)/领域库、用户自定义库；
语法信息：输入句子的历史记录；
句法信息：当前动态输入句子；
上下文信息：提取当前输入词的词向量时用到的长度设为 N 的滑动窗口长度范围的字符序列信息

Attention 与 Self-Attention:

Attention = f(Q, (K, V))

Attention 的 (K, V)是预训练时，
使用 Corpus语料库或 World Knowledge世界常识库统计训练得到。
Vocabulary是静态的，维度是定长的，Vocabulary尽可能收集到完整的样本空间。
Attention是词向量与 Vocabulary 的每一个词计算Similarity相似度

Self-Attention 的 K, V 是预测时，使用当前输入句子，以及输入句子的历史记录，动态训练的；
Vocabulary是动态的，维度变长的，Vocabulary尽可能收集到当前会话或全部会话的，输入句子历史记录
有一个处理Tips：
正像用定长的滑动窗口将变长的动态输入句子进行采样。
可将变长的Vocabulary维度，通过padding组织成定长的维度。
Self-Attention是当前输入句子的每一个词，与当前输入句子(Self)的每一个词计算Similarity相似度

attention self-attention multi-head multi

self-attention aggregation multi-scale attention

self-attention

self-attention attention self

self-attention representation functional attention

recommendation self-attention sequential stochastic

self-attention local-global interactions transformers

self-attention attention笔记self

self-attention attention self 4.1

self-attention注意力attention机制