Attention、Self-Attention 与 Multi-Head Attention

发布时间 2023-06-11 09:07:24作者: abaelhe

Corpus语料库与DB数据库

World Knowledge世界常识库:OALD牛津高阶/Synonyms/Phrases/…, 新华字典/成语词典/辞海, 行业词典,大英百科,Wikipedia,…
全局信息: Corpus语料库、行业通用数据库(例如Springer/Google Scholar/Academia/…学术数据库)/领域库、用户自定义库;
语法信息:输入句子的历史记录;
句法信息:当前动态输入句子;
上下文信息:提取 当前输入词 的 词向量 时用到的长度设为 N 的滑动窗口长度范围的字符序列信息

Attention 与 Self-Attention:

Attention = f(Q, (K, V))

Attention 的 (K, V)是预训练时,
使用 Corpus语料库 或 World Knowledge世界常识库 统计训练得到。
Vocabulary是静态的,维度是定长的,Vocabulary尽可能收集到完整的样本空间。
Attention是词向量 与 Vocabulary 的每一个词计算Similarity相似度

Self-Attention 的 K, V 是预测时,使用 当前输入句子,以及输入句子的历史记录,动态训练的;
Vocabulary是动态的,维度变长的,Vocabulary尽可能收集到当前会话或全部会话的,输入句子历史记录
有一个处理Tips:
正像用 定长的滑动窗口 将 变长的动态输入句子 进行采样。
可将变长的Vocabulary维度,通过padding组织成定长的维度。
Self-Attention是当前输入句子的每一个词,与当前输入句子(Self)的每一个词计算Similarity相似度