【专题】2023年大语言模型综合评测报告PDF合集分享(附原数据表)

发布时间 2024-01-12 04:48:43作者: 拓端tecdat

原文链接:https://tecdat.cn/?p=33624

原文出处:拓端数据部落公众号

自2022年年末以来,人工智能大模型已成为技术领域甚至全球创新领域最受关注的话题。以ChatGPT为代表的大模型产品发展迅速,预测数据显示,到2030年,AIGC市场规模有望超过万亿元。2023年,国内主要厂商也相继推出自研的大语言模型产品,同时,国内也推出了大量的大语言模型应用,逐步构建了基于中文语言特色的大语言模型生态。阅读原文,获取专题报告合集全文,解锁文末140份大模型相关行业研究报告。

本合集集中研究大语言模型产品的研发要素和核心特征,并从语言模型准确性、数据基础、模型和算法能力、安全和隐私四个维度入手,拆分出12个细分维度,分别是语义理解、语法结构、知识问答、逻辑推理、代码能力、上下文理解、语境感知、多语言能力、多模态能力、数据基础、模型和算法能力、安全和隐私。针对ChatGPT、Claude、Sage、天工3.5、文心一言、通义千问、讯飞星火、Moss、ChatGLM、vicuna-13B等十款大模型产品,我们设计了超过3000个问题的评测。

此外,本合集特别关注了大模型产品在编程能力方面的表现,提高了这部分问题的权重和比例。同时,我们还专门设置了测试中文语境特色的问题,例如方言测试、中文特色推理、对对联等。我们希望通过本次评测来帮助更多技术领域的同行获得对于中外大模型产品能力的认识,以帮助大家在AGI创业方向选择和工作实际应用方面获得最新的认知。

国际产品编程能力显著高于国内产品

  • 编程题目主要反映大语言模型产品进阶的逻辑推理能力。
  • 在十个模型中编程得分最高的为Claude,得分率73.47%,国内产品表现最好的为文心一言,得分率为68.37%。
  • 在四个题目分类中,大语言模型表现最好的题目分类为错误提示和修复,整体得分率为82.5%,而表现最差的是难度相对较高的代码自动补全类题目,整体得分率为41.67%。

image.png

国际产品编程能力显著高于国内产品

  • 知识题目主要反映大语言模型产品对文字的基础认知和学习能力。
  • 在十个模型中知识得分最高的为文心一言,得分率73.33%,得分第二的为ChatGPT,得分率为72.67%。
  • 在九个题目分类中,大语言模型呈现很大的差异化分布,即医学常识获得最高分率86%,而娱乐明星类知识仅获得24%。
  • 除IT知识问答题目外,其他八个题目分类中国内的大模型产品在中文知识环境中会的问答表现整体接近或优于国际大模型产品。

本专题内的参考报告(PDF)目录

  1. 清华大学:2023大语言模型综合性能评估报告 报告2023-08-23
  2. BDS国家工程中心:2023大语言模型提示注入攻击安全风险分析报告 报告2023-07-31
  3. InfoQ:大语言模型综合评测报告2023 报告2023-05-30
  4. 艾瑞咨询:ChatGPT浪潮下,看中国大语言模型产业发展 报告2023-04-12
  5. 微软:微软GPT研究报告 报告2023-09-07
  6. 前瞻产业研究院:ChatGPT开启AlGC产业生态新时代 新风口 新生... 报告2023-08-25
  7. MarketUP:ChatGPT prompt指令模型大全 报告2023-08-15
  8. 混沌学园:解锁新的生产力:如何用ChatGPT提升业务能力 报告2023-08-09
  9. 智能小巨人俱乐部:ChatGPT还需要跨越几道鸿沟-生成式AI工具使用... 报告2023-07-20
  10. 高力国际:ChatGPT引发的AI人工智能产业应用前景分析与行业新机遇 报告2023-07-04
  11. Microsoft Azure:Azure OpenAI案例集-GPT... 报告2023-06-20
  12. 曲直:错过AI错过未来-如何利用chatGPT赋能国际货代 报告2023-06-06
  13. Microsoft Azure:如何借GPT快速建构应用?掌握9大通用... 报告2023-06-03
  14. CSA GCR:ChatGPT的安全影响 报告2023-05-31
  15. 众安科技:2023 AIGC&ChatGPT保险行业应用白皮书 报告2023-05-26
  16. 美通社:ChatGPT,AGI与营销 报告2023-05-25
  17. OpenMediation:2023年ChatGPT Plus 80+... 报告2023-05-22
  18. 美通社:GPT+AI时期公关的传播机遇与挑战 报告2023-05-21
  19. 美通社:ChatGPT赋能品牌内容 报告2023-05-20
  20. 美通社:ChatGPT在商业内容中的作用价值 报告2023-05-19
  21. 法国里昂商学院&HRflag:ChatGPT对人力资源管理的影响分析报... 报告2023-05-17
  22. 奇绩论坛:ChatGPT新机遇分享 报告2023-04-26
  23. 量子论:ChatGPT 实用指南(精编版)(2023) 报告2023-04-17
  24. 南京航空航天大学:ChatGPT的前世今生(2023) 报告2023-04-16
  25. Ibrahim John:如何向ChatGPT提问以获得高质量答案:提... 报告2023-04-14
  26. 艾瑞咨询:ChatGPT浪潮下,看中国大语言模型产业发展 报告2023-04-12
  27. 猎豹移动:为什么ChatGPT是生产力革命(2023) 报告2023-04-09
  28. 中国科学院:ChatGPT对文献情报工作的影响 报告2023-04-06
  29. 工业4.0俱乐部:ChatGPT认知白皮书 报告2023-04-06
  30. 安信:ChatGPT移动应用程序威胁分析报告(2023) 报告2023-04-04
  31. 微软研究院:人工通用智能的星星之火-GPT-4的早期实验 报告2023-03-30
  32. 工业4.0产业联盟:ChatGPT对企业与个人的机遇与挑战 报告2023-03-30
  33. 亚信科技&清华大学:2023年AIGC(GPT-4)赋能通信行业应用白... 报告2023-03-29
  34. 浙商证券:AI行业深度报告-ChatGPT-AI模型框架研究 报告2023-03-28
  35. 中信建投:GPT4及ChatGPT相关应用梳理 报告2023-03-23
  36. 熊鹏:ChatGPT4.0在投资中的运用初探 报告2023-03-21
  37. 中兴新云:ChatGPT解读及财务应用探索 报告2023-03-19
  38. OpenAI:GPT-4 技术报告(中文版) 报告2023-03-18
  39. OpenAI:GPT-4 技术报告(英文版) 报告2023-03-18
  40. 工业4.0研究院:ChatGPT对数字孪生体发展的启示 报告2023-03-12
  41. 华东政法大学:人工智能通用大模型(ChatGPT)的进展、风险与应对 报告2023-03-09
  42. 哈尔滨工业大学:ChatGPT调研报告 报告2023-03-07
  43. 智谱研究:ChatGPT团队背景研究报告 报告2023-03-04
  44. 甲子光年:2023AIGC市场研究报告及ChatGPT推动的变革趋势与... 报告2023-02-28
  45. 浙商证券:ChatGPT研究框架 报告2023-02-15
  46. 国泰君安:ChatGPT或引领游戏产业革命 报告2023-02-15
  47. 国泰君安:ChatGPT研究框架(2023) 报告2023-02-10
  48. 真格基金:ChatGPT 报告2023-02-09
  49. 华西证券:ChatGPT-重新定义搜索“入口” 报告2023-02-09
  50. 量子位智库:三分钟看懂ChatGPT 报告2023-02-08
  51. 中信建投:从CHAT_GPT到生成式AI(Generative AI)... 报告2023-02-01
  52. 中伦:2023公司控制权争夺研究报告:法律大模型分析与数据挖掘 报告2023-09-01
  53. 红餐品牌研究院:小吃店模型创新分析报告2023 报告2023-09-01
  54. 海尔智家:2023智能家电与生成式人工智能大模型-创新与发展白皮书 报告2023-09-01
  55. 和而泰:2023基于家电大模型的产业应用白皮书 报告2023-08-30
  56. InfoQ研究中心:2023中国人工智能成熟度模型报告 报告2023-08-28
  57. 浪潮信息:AIGC大模型算力平台参考设计 报告2023-08-27
  58. 头豹:2023年中国3D建模行业-3D建模-虚拟模型制造过程(摘要版) 报告2023-08-26
  59. 清华大学:2023大语言模型综合性能评估报告 报告2023-08-23
  60. 中国移动研究院:体系化人工智能与大模型 报告2023-08-22
  61. 中国移动研究院:6G内生AI架构及AI大模型 报告2023-08-21
  62. 中国电子技术标准化研究院:知识图谱与大模型融合实践研究报告 报告2023-08-16
  63. 新华社研究院中国企业发展研究中心:人工智能大模型体验报告2.0 报告2023-08-16
  64. MarketUP:ChatGPT prompt指令模型大全 报告2023-08-15
  65. 中国移动:2023“弈衡”通用大模型评测体系白皮书 报告2023-08-12
  66. 商汤:2023大模型伦理原则与实践白皮书-日日新思无邪 报告2023-08-01
  67. 爱分析:中国市场大模型落地进展与趋势洞察 报告2023-07-31
  68. 安世亚太:数字孪生是基于模型的体系工程 报告2023-07-31
  69. BDS国家工程中心:2023大语言模型提示注入攻击安全风险分析报告 报告2023-07-31
  70. 速途网&大模型之家:人工智能大模型产业创新价值研究报告 报告2023-07-27
  71. 甲子光年:AIGC通用大模型产品测评篇 报告2023-07-25
  72. 工业互联网产业联盟:工业互联网标识解析-标识数据模型白皮书 报告2023-07-25
  73. TE智库:2023中国通用大模型内容生成及安全性能力评测报告 报告2023-07-23
  74. 易观分析:大模型对企业数智化升级与业务经营的影响与应对 报告2023-07-20
  75. 浙江大学大模型时代:智能设计的机遇和挑战 报告2023-07-20
  76. 中国工业互联网研究院:通用人工智能大模型工业领域知识问答性能评估 报告2023-07-11
  77. 腾讯研究院:大模型时代的AI十大趋势观察-人机共生 报告2023-07-11
  78. 普华永道:气象数据价值系列白皮书之三:撬动气象数据价值新模型白皮书 报告2023-06-16
  79. 之江实验室:2023生成式大模型安全与隐私白皮书 报告2023-06-11
  80. 中国移动研究院:面向AI大模型的智算中心网络演进白皮书 报告2023-06-03
  81. 新华社研究院:人工智能大模型体验报告 报告2023-06-02
  82. InfoQ:大语言模型综合评测报告2023 报告2023-05-30
  83. 中国移动:我国人工智能大模型发展动态 报告2023-05-19
  84. 沙利文:AI大模型市场研究报告(2023)-迈向通用人工智能,大模型拉... 报告2023-05-17
  85. 艾瑞咨询:ChatGPT浪潮下,看中国大语言模型产业发展 报告2023-04-12
  86. 浙商证券:AI行业深度报告-ChatGPT-AI模型框架研究 报告2023-03-28
  87. 腾讯:2023全域用户经营白皮书:STAR模型,从用户运营到生意增长 报告2023-03-21
  88. 德勤:消费元宇宙塑造商业新模型 报告2023-03-13
  89. 百信银行:商业银行“Bank Digital Mesh”数字化成熟度评... 报告2023-03-13
  90. 华东政法大学:人工智能通用大模型(ChatGPT)的进展、风险与应对 报告2023-03-09
  91. IDC:2022中国大模型发展白皮书-元能力引擎筑基智能底座 报告2023-03-07
  92. 百信银行:商业银行“Bank Digital Mesh”数字化成熟度评... 报告2023-02-27
  93. IDC:2022中国大模型发展白皮书⸺元能力引擎筑基智能底座 报告2023-02-21
  94. 微伴助手:私域商业模型分析与案例解析 报告2022-09-01
  95. 智篆:数智化转型:钻石模型白皮书 报告2022-03-30
  96. 工业互联网产业联盟:工业互联网信息模型园区应用白皮书 报告2021-12-29
  97. 腾讯&智来时代:2021新职业教育机构数字化经营模型 报告2021-12-22
  98. 太平洋:传媒互联网行业专题-海外AIGC应用进展之游戏篇 报告2023-09-07
  99. 甲子光年:2023年中国AIGC产业算力发展报告 报告2023-09-05
  100. 浪潮信息:AIGC大模型算力平台参考设计 报告2023-08-27
  101. 艾瑞咨询:2023年中国AIGC产业全景报告 报告2023-08-24
  102. 贝塔数据:2023 AIGC时代-手机银行财富管理能力建设白皮书 报告2023-08-18
  103. 灵汐科技:2023年AIGC行业调研报告 报告2023-08-03
  104. 无界AI:AIGC之AI绘画行业发展研究报告2023 报告2023-07-31
  105. 头豹:2023年中国AIGC细分赛道研究报告(上)-文本和图像率先应用... 报告2023-07-31
  106. 软通智慧&人大:2023年AIGC赋能城市治理应用白皮书 报告2023-07-27
  107. 甲子光年:AIGC通用大模型产品测评篇 报告2023-07-25
  108. 量子位:2023 AIGC算力全景与趋势报告 报告2023-07-24
  109. TE智库:2023AIGC+营销价值与应用研究报告 报告2023-07-21
  110. 亿欧智库:2023中国AIGC商业潜力研究报告 报告2023-07-10
  111. 腾讯云:AI2.0时代如何通过AIGC打造爆款营销内容? 报告2023-07-06
  112. 清华大学:从营销AIGC化到AIGC营销化0000 报告2023-07-05
  113. 阿里云:玩转AIGC与应用部署 报告2023-07-02
  114. 爱分析:2023AIGC厂商全景报告 报告2023-07-01
  115. 亚洲数据集团:智能时代的生产力变革:AIGC产业应用实践 报告2023-06-28
  116. 猎聘:2023 AIGC人才趋势洞察报告 报告2023-06-20
  117. 中国文化产业协会:中国文化元宇宙AIGC发展研究报告 报告2023-06-18
  118. 亿欧智库:企业AIGC商业落地应用研究报告 报告2023-06-07
  119. 众安科技:2023 AIGC&ChatGPT保险行业应用白皮书 报告2023-05-26
  120. 清华大学:AIGC发展研究1.0版0.91 报告2023-05-17
  121. 亿欧智库:中国AIGC商用场景趋势捕捉指北 报告2023-05-16
  122. 复旦大学:AIGC时代的多模态知识工程思考与展望 报告2023-05-05
  123. 拉勾:2023第一季度AIGC人才供需报告 报告2023-04-30
  124. 华东师大:AIGC技术给教育数字化转型带来的机遇与挑战 报告2023-04-28
  125. 创客贴:AIGC产业发展及应用白皮书 报告2023-04-26
  126. ArchSummit:营销领域AIGC前沿进展与挑战 报告2023-04-24
  127. 复旦大学:AIGC时代的多模态知识工程思考与展望 报告2023-04-22
  128. 百度:百度AIGC创新内容营销解决方案 报告2023-04-22
  129. 增长黑盒&黑盒点评:2023中国AIGC应用研究报告 报告2023-04-18
  130. 头豹:2022年中国AIGC行业研究报告- 蓄势待发-数字内容的工业革... 报告2023-04-07
  131. 甲子光年:2023AIGC应用与实践展望报告 报告2023-04-07
  132. 量子位智库:AIGC产业全景图报告 报告2023-03-31
  133. 亚信科技&清华大学:2023年AIGC(GPT-4)赋能通信行业应用白... 报告2023-03-29
  134. 百度:2023百度AIGC创新营销解决方案V2.0 报告2023-03-26
  135. 脉脉:2023AIGC人才趋势报告 报告2023-03-26
  136. 爱分析:2023AIGC市场厂商评估报告:拓尔思 报告2023-03-24
  137. 甲子光年:2023AIGC市场研究报告及ChatGPT推动的变革趋势与... 报告2023-02-28
  138. 腾讯研究院:AIGC发展趋势报告2023 报告2023-02-01
  139. 中国信通院&京东:人工智能生成内容(AIGC)白皮书(2022年) 报告2022-09-07
  140. 中国信通院:2022年人工智能生成内容(AIGC)白皮书 报告2022-09-03