多种模态数据集

发布时间 2023-11-05 23:26:57作者: 戈壁与草原

图像描述 Image Captioning

LAION-5B

  • 2022.3发布的迄今为止最大规模的图文对的多模态数据集。共计约5.85B数据,是基于CLIP过滤的。基于这个大型数据集,作者也发布不同侧重的子集。LAION2B-en是包含英文注释文本的,LAION2B-multi是包含100多种的其它注释文本语言的,LAION2B-nolang其中文本注释至少包含一种无法准确检测识别的语言等等。
  • 示例 https://laion.ai/blog/laion-5b/

COCO-700M

COCO

  • 微软发布的上下文通用物体数据集,该数据集涵盖了目标检测、分隔、关键点检测、图文注释这4个方面,共计有328k张图片。
  • 示例 https://cocodataset.org/#home

NoCaps

  • 从OpenImages数据集中验证与测试集中挑选出15k张图片,并为这些图片以人工方式,生成166k个与图片内容效能相关的文本描述语句。
  • 示例 https://nocaps.org/

Flickr30K

TextCaps

  • 28k张图片,共计145k条文本描述语句。该数据集要求模型识别文本并与视觉上下文建立联系。并决定复制或者解释句子中的某个部分,对文本中实体与视觉中实体之间进行空间位置、语义、和视觉推理。
  • 示例 https://arxiv.org/pdf/2003.12462.pdf https://textvqa.org/textcaps/

视觉问答类 Visual Question Answering (VQA)

依据图片中展示出的视觉信息,提出若干个问题,并给于每个问题正确的答案。

VQAv2

OKVQA

  • 需要外部知识才能回答的问题。14k个开放性问题,每个问题5个相关答案,
  • 示例 https://okvqa.allenai.org/

TextVQA

  • 基于图片中文字信息进行视觉问答。要求可以读取识别图片中的文本信息,并回答与之相关的问题。来自OpenImage的28k张图片,45k个问题及453k个答案。
  • 示例 https://textvqa.org/

VizWiz-VQA

OCR-VQA

ScienceQA

  • 21208个不同科学主题的多模态多项选择题,大多数问题都有答案及对应的讲座或者详细解释。
  • 示例 https://scienceqa.github.io/

TDIUC

Visual Grounding

根据文本问题,定位出图片中与之相关的物体

Visual7W

RefCOCO/RefCOCO+