大模型评测工具&评测基准

发布时间 2023-12-08 11:17:26作者: Syw_文
 

● 评测工具:用于评估模型的整体能力

● 评测基准:用于评估模型在特定任务方面的能力

 

评测集名称

核心维度

测试模型的描述

评测类型

MMLU

多模态语言理解

理解文本、图像和音频等多种模态数据之间的关系方面的能力

评测工具

AGIEVAL

通用人工智能

自然语言理解、机器翻译、视觉识别等多种不同任务方面的能力

评测工具

ARC

对话理解

理解对话场景中的意图和信息方面的能力

评测工具

CEval

自然语言推理

理解和推理自然语言中的逻辑关系方面的能力

评测工具

Race

阅读理解

理解文本的语义和结构方面的能力

评测工具

GSM8K

生成文本

在生成文本方面的能力

评测工具

SQuAD

问答

测试模型在回答文本中的问题方面的能力

评测工具

GLUE

自然语言理解

自然语言理解方面的能力

评测基准

CLUE

中文自然语言理解

中文自然语言理解方面的能力

评测基准

WMT

机器翻译

测试模型在机器翻译方面的能力

评测基准

商汤大语言模型应用“商量SenseChat“完成评测后的链接:https://finance.sina.cn/tech/2023-08-31/detail-imzkcazt6748692.d.html?fromtech=1&from=wap