GPT-4不服被Bard反超：最新模型已入场 - 新火种

热门关键词

文心一言 AI copy btc 斑马腾迅 aa 1 iPollo sd

首页 > AI资讯 > 最新资讯 > GPT-4不服被Bard反超：最新模型已入场

GPT-4不服被Bard反超：最新模型已入场

新火种 2024-01-31

“大模型排位赛”权威榜单Chatbot Arena刷新：

谷歌Bard超越GPT-4，排名位居第二，仅次于GPT-4 Turbo。

GPT-4不服被Bard反超：最新模型已入场

然鹅，众多网友对此却表示“不服”、“不公平”。

GPT-4不服被Bard反超：最新模型已入场

原来，谷歌AI掌门人Jeff Dean透露，Bard性能大幅提升，是因为搭载了新版大模型——Gemini Pro-scale。

GPT-4不服被Bard反超：最新模型已入场

这也就意味着，打“排位赛”的Bard具备了联网功能。

GPT-4不服被Bard反超：最新模型已入场

网友的质疑正是围绕着这一点展开：

GPT-4不服被Bard反超：最新模型已入场

Hugging Face的“首席羊驼官”Omar Sanseviero也表示：

GPT-4不服被Bard反超：最新模型已入场

面对种种质疑声，Imsys官方做出了回应，其中指出：

Arena排行榜是实时的，大家如有疑问，可在Arena中直接比较模型并投票；投票数据公开透明，还会即将发布关于用户提示多样性和投票质量的研究以及相应的数据集；

对于网友们最关心的被Bard超越的GPT-4是不联网版本的问题，Imsys表示“如果实时数据的接入能够提升用户体验，排行榜将予以体现”。

并且直接@了OpenAI和Bing以及微软高管Mikhail Parakhin，表示非常乐意在竞技场中加入GPT-4联网版或Bing Copilot。

最新消息是，OpenAI的最新模型gpt-4-0125-preview现已入驻竞技场，等待用户参与投票。

GPT-4不服被Bard反超：最新模型已入场

Bard超越GPT-4是怎么回事？

Chatbot Arena是一个大模型权威榜单，由UC伯克利研究人员主导的Imsys（Large Model Systems Organization）组织创建。

该排行榜采用匿名1V1battle的投票规则，基于Elo评级系统排名。

具体来说，投票页面如下，两个模型Model A和B均匿名，用户在提出多个问题后对模型的回答打分，总共有四个选项：A更好、B更好、A和B一样好，A和B都不好。

GPT-4不服被Bard反超：最新模型已入场

值得一提的是，如果在问答过程中，模型身份泄露，那么该投票作废。

GPT-4不服被Bard反超：最新模型已入场

根据当前榜单，竞技场中有56个大模型：

GPT-4不服被Bard反超：最新模型已入场

此前GPT-4凭借“遥遥领先”的评分，长期霸榜，然而新版Bard发布后，直接超越GPT-4的两个版本冲到了第二名，和GPT-4 Turbo只差34分：

GPT-4不服被Bard反超：最新模型已入场

更详细一点，在所有没有平局的Model A对B的对决中，Model A获胜的比例如下：

GPT-4不服被Bard反超：最新模型已入场

还有每一对模型组合的单挑次数（无平局）：

GPT-4不服被Bard反超：最新模型已入场

此外，Chatbot Arena排行榜还使用自助法对Elo评分估计进行1000次随机抽样，从而评估置信区间等。

GPT-4不服被Bard反超：最新模型已入场

单个模型相对于其他所有模型的平均胜率如下：

GPT-4不服被Bard反超：最新模型已入场

不过值得注意的是，Arena排行榜是实时的，Bard目前虽然排名第二，但总共只有3000多票。

相较而言，GPT-4 Turbo的票数已经达到了30000+，被超越的两个版本的票数也都是Bard的数倍。

GPT-4不服被Bard反超：最新模型已入场

而现在GPT-4最新版本已入场（虽然还没有在排行榜上更新），后续榜单还要再坐等一波～

Tags:

模型最新

相关推荐

百度智能云：千帆大模型平台日均调用量超7亿次

2024-09-25

科大讯飞与中国绿发携手发布泰山大模型

2024-09-24

华知大模型5.0发布

2024-09-22

三个大模型组队挑战o1，实测360多模型协作干掉提示词工程

2024-09-22

浩鲸科技鲸智BI大模型发布，从算法炫技到价值落地

2024-09-22

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

热门文章

全国人大代表刘庆峰：建议完善AI失业保障

全球首次！人形机器人将与人类一起跑“半马”

2025-04-16 11:27

政协委员甄子丹：人工智能对电影行业既是冲击也是鼓励

2025-04-17 11:27

我国首个林草行业大模型研发成功

2025-04-18 20:23

全国人大代表刘庆峰：发展AI新岗位，试点“AI失业保障专项保险”

2025-04-16 11:29

平稳开局！今年一季度我国货物贸易进出口10.3万亿元，增长1.3%

2025-04-16 13:26

小K播早报|2025中国互联网企业家座谈会召开“天工”夺得全球首个人形机器人半马冠军

2025-04-21 13:22

前高通高管任小米芯片平台部负责人；2024年我国再生资源回收总量超4亿吨

2025-04-19 11:21

恒生电子董事长刘曙峰：AI平权时代，“智能体”成为金融大模型战略性赛道

2025-04-16 13:23

撬动千亿资本杭州加快建设人工智能产业高地

2025-04-16 08:27