Chatbot Arena：大型语言模型评级平台-526互联

Chatbot Arena：主要针对主流几个开源模型进行测评（目前很多模型还没纳入进来）

网址：https://chat.lmsys.org/

测评系统：随你给你模型两两比对进行打分。

PS：Elo 评分系统统是指由匈牙利裔美国物理学家 Arpad Elo 创建的一个衡量各类对弈活动水平的评价方法，是当今对弈水平评估的公认的权威方法。被广泛用于国际象棋、围棋、足球、篮球、电子竞技等运动；Elo 评分越高，越厉害。

battle界面⬆️

- Google PaLM 2和其他聊天机器人已加入竞技场。

- 基于匿名投票数据的新Elo评分排行榜已发布。

- GPT-4目前排名第一。

- PaLM 2在调节、多语言能力和推理能力方面存在缺陷。

- 小型模型如vicuna-7B和mpt-7b-chat具有竞争力。

- Claude-instant-v1是Claude-v1的低成本替代品。

- 当前的竞技场在反映聊天机器人的长尾能力差异方面存在局限性。

- 正在设计一种新的比赛机制，使用专家设计的问题和评委来检查聊天机器人。