NLP QA数据集

数据文档

背景描述

CNN/Daily Mail（简称CNN/DM）作为单文本摘要语料库，每篇摘要包含多个摘要句。数据集最初是从美国有限新闻网（CNN）和每日邮报网（Daily Mail）收集的约100万条新闻数据作为机器阅读理解语料库。后来进行简单改动，形成用于单文本生成式摘要的语料库。将每篇新闻的要点按原文中出现的顺序组成多句的摘要，每个要点看成是一个句子。

数据说明

用于单文本摘要的CNN/DM数据集规模：

训练集大小： 286817
验证集大小： 13368
测试集大小： 11487
训练集中平均摘要句子数： 3.72

数据来源

https://cs.nyu.edu/~kcho/DMQA/

引用格式

@misc{dataset_916137,
title = { CNN/Daily Mail新闻数据集 },
author = { KOTO },
howpublished = { \url{https://www.heywhale.com/mw/dataset/5e672b53f278cf002d532d12} },
year = { 2020 },
}

https://www.heywhale.com/mw/dataset/5e672b53f278cf002d532d12
https://zhuanlan.zhihu.com/p/137689404
https://github.com/hellotransformers/Natural_Language_Processing_with_Transformers/blob/main/chapter6.md
https://blog.csdn.net/qq_25222361/article/details/78694617
https://zhuanlan.zhihu.com/p/504279252