NLP QA数据集

发布时间 2023-11-21 11:15:01作者: michaelchengjl

NLP QA数据集

数据文档

背景描述

CNN/Daily Mail(简称CNN/DM)作为单文本摘要语料库,每篇摘要包含多个摘要句。数据集最初是从美国有限新闻网(CNN)和每日邮报网(Daily Mail)收集的约100万条新闻数据作为机器阅读理解语料库。后来进行简单改动,形成用于单文本生成式摘要的语料库。将每篇新闻的要点按原文中出现的顺序组成多句的摘要,每个要点看成是一个句子。

数据说明

用于单文本摘要的CNN/DM数据集规模:

训练集大小: 286817
验证集大小: 13368
测试集大小: 11487
训练集中平均摘要句子数: 3.72

数据来源

https://cs.nyu.edu/~kcho/DMQA/

引用格式

@misc{dataset_916137,
title = { CNN/Daily Mail新闻数据集 },
author = { KOTO },
howpublished = { \url{https://www.heywhale.com/mw/dataset/5e672b53f278cf002d532d12} },
year = { 2020 },
}

https://www.heywhale.com/mw/dataset/5e672b53f278cf002d532d12
https://zhuanlan.zhihu.com/p/137689404
https://github.com/hellotransformers/Natural_Language_Processing_with_Transformers/blob/main/chapter6.md
https://blog.csdn.net/qq_25222361/article/details/78694617
https://zhuanlan.zhihu.com/p/504279252