基于GPT-2预训练模型chat 演示-代码说明

发布时间 2023-03-22 21:09:14作者: lexn

基于GPT-2预训练模型chat 演示-代码说明

代码路径:shibing624/gpt2-dialogbot-base-chinese · Hugging Face

代码说明:4.MMI模型训练与生成_哔哩哔哩_bilibili

1 文本预处理

  下载语料

 

2 train

  1 dataset

2 dataloader

3 padding

4 打印训练loss,tensorboardx

5 try的目的为 加载超过mem可以舍弃但是又不至于终止训练。

  模型原理可以在huggingface链接查到

  模块使用方法也可以查到

3 推理

  预训练模型 可以在链接中查到

4 MMI

  说明MMi MMI(Maximum Mutual Information)在语言模型中,MMI model是一种将最大互信息准则应用于语言模型的建模方法。

  逆序拼接语料训练。