什么是Bert

发布时间 2023-11-12 23:41:16作者: 黑逍逍

论文:https://arxiv.org/abs/1810.04805

 

定义:

BERT(Bidirectional Encoder Representations from Transformers)是一种自然语言处理(NLP)中的预训练模型,由Google在2018年提出。BERT的关键创新是使用双向(bidirectional)的Transformer编码器来学习上下文中的单词表示,而不是传统的单向模型。这使得BERT能够更好地理解语境,从而在各种NLP任务中取得了显著的性能提升

BERT模型的训练分为两个阶段:预训练(Pre-training)和微调(Fine-Tuning)。在预训练阶段,BERT模型通过大规模的无标签文本数据学习单词的上下文表示。然后,在微调阶段,使用有标签的任务特定数据对模型进行微调,以适应特定的NLP任务,如文本分类、命名实体识别、问答等

bert和transformer有什么关系

 

结构:

 

 

例子:

 

1.Token Embeddings(标记嵌入): 对于输入文本中的每个单词或子词,BERT使用嵌入向量来表示。这些嵌入向量捕捉了单词在语义空间中的表示,通常是通过预训练的词嵌入模型(如Word2Vec、GloVe)得到的。

2.Segmentation Embeddings(分割嵌入): BERT的输入可能包含来自不同句子或段落的文本。为了区分这些不同的文本段,BERT引入了分割嵌入。对于每个单词的嵌入向量,都会加上一个分割嵌入,以指示该单词属于哪个句子或段落。

3.Position Embeddings(位置嵌入): Transformer模型本身不考虑单词的位置信息,因此BERT引入了位置嵌入来表示单词在句子中的位置。这是通过将每个单词的位置信息嵌入到向量中实现的。这是因为在Transformer中,输入序列的位置信息是被忽略的,而BERT通过添加位置嵌入来纠正这一不足。

对比: