法研杯 生成式文本摘要赛题处理

发布时间 2023-08-24 15:10:36作者: wangssd

赛题分析

  统计信息

  样本预览

  建模思路

 

抽取模型

抽取模型的思路是先通过规则将原始的生成式语料转化为序列标注式语料。(将文本转换为文本向量)

基于深度学习的抽取式摘要,是有监督的文本摘要,可以建模为序列标注任务或句子排序任务

建模为序列标注任务,就是为原文中的每一个句子打一个二分类标签(0 或 1),0 代表该句不属于摘要,1 代表该句属于摘要,训练一个标注模型

所有标注为1的句子,可以作为最终的摘要。

建模为句子排序任务,则是输出每个句子作为摘要的概率,选择概率最大的topk个句子,作为最终的摘要。

步骤:

  语料转换

    抽取模型只是过程而不是结果,我们还要把抽取的结果送入到 Seq2Seq 模型优化。因此,抽取模型的原则是“求全”,即尽量把最终摘要所需要的信息覆盖到。为此,我们按照如下规则将原始训练语料转换为抽取式语料:

    1、自行构建分句函数,使得句子的颗粒度更细;

    2、人工摘要的每个句子,都在原文中匹配与之相似度最高的那个句子(可以重复匹配);

    3、将所有匹配到的原文句子作为抽取句子标签;

  模型结构

    使用的是以句为单位序列标注模型作为抽取模型,句向量部分用“BERT+平均池化”来生成,并固定不变,标注模型主体方面则用 DGCNN 模型构建。

   输出数据

    将原文作为输入,通过抽取模型输出抽取摘要,然后把抽取摘要作为生成模型的输入,来输出最终摘要

 

生成模型

生成模型就是一个Seq2Seq 模型,以抽取模型的输出结果作为输入人工标注的摘要作为输出进行训练,我们可以理解为是对抽取结果做进一步的“润色”。

  模型总览