● 评测工具:用于评估模型的整体能力
● 评测基准:用于评估模型在特定任务方面的能力
评测集名称 |
核心维度 |
测试模型的描述 |
评测类型 |
MMLU |
多模态语言理解 |
理解文本、图像和音频等多种模态数据之间的关系方面的能力 |
评测工具 |
AGIEVAL |
通用人工智能 |
自然语言理解、机器翻译、视觉识别等多种不同任务方面的能力 |
评测工具 |
ARC |
对话理解 |
理解对话场景中的意图和信息方面的能力 |
评测工具 |
CEval |
自然语言推理 |
理解和推理自然语言中的逻辑关系方面的能力 |
评测工具 |
Race |
阅读理解 |
理解文本的语义和结构方面的能力 |
评测工具 |
GSM8K |
生成文本 |
在生成文本方面的能力 |
评测工具 |
SQuAD |
问答 |
测试模型在回答文本中的问题方面的能力 |
评测工具 |
GLUE |
自然语言理解 |
自然语言理解方面的能力 |
评测基准 |
CLUE |
中文自然语言理解 |
中文自然语言理解方面的能力 |
评测基准 |
WMT |
机器翻译 |
测试模型在机器翻译方面的能力 |
评测基准 |
商汤大语言模型应用“商量SenseChat“完成评测后的链接:https://finance.sina.cn/tech/2023-08-31/detail-imzkcazt6748692.d.html?fromtech=1&from=wap