大模型玩你画我猜：Claude6局3胜，GPT-4o表现迷惑 - 新火种

热门关键词

文心一言 AI copy btc 斑马腾迅 aa 1 iPollo sd

首页 > AI资讯 > 最新资讯 > 大模型玩你画我猜：Claude6局3胜，GPT-4o表现迷惑

大模型玩你画我猜：Claude6局3胜，GPT-4o表现迷惑

新火种 2024-11-04

一群大模型玩你画我猜，人类一旁围观超起劲儿。

就像下面这张图展示的，由Grok画长颈鹿，一堆大模型根据生成内容猜答案。参赛选手包括GPT-4o、Claude、Llama、Gemini、Grok等。

大模型玩你画我猜：Claude6局3胜，GPT-4o表现迷惑

其实这是最近爆火的一种新的测试基准（doge）。

游戏结果一定程度上能反映出大模型能力，比如这组测试一共进行了6局游戏，表现最好的是Claude：它赢了3次！

GPT-4o表现有点抽象。就它画的这龙卷风，人类也看不懂。

大模型玩你画我猜：Claude6局3胜，GPT-4o表现迷惑

大模型玩你画我猜：Claude6局3胜，GPT-4o表现迷惑

不止如此，在很多轮游戏中，其他模型都在认认真真地答题，而它的第一个回答经常是Circle？？有点子抽象。

大模型玩你画我猜：Claude6局3胜，GPT-4o表现迷惑

大模型玩你画我猜：Claude6局3胜，GPT-4o表现迷惑

大模型玩你画我猜：Claude6局3胜，GPT-4o表现迷惑

所以有人就说，这游戏可以当测试基准来用啊。

大模型玩你画我猜：Claude6局3胜，GPT-4o表现迷惑

还有人表示，AI照这个速度发展，人类就只能当围观的瓦力了。

大模型玩你画我猜：Claude6局3胜，GPT-4o表现迷惑

大模型玩你画我猜：Claude6局3胜，GPT-4o表现迷惑

来看看更多有趣的例子

在比较简单的题目上，所有模型都在一两个回合中就猜对了答案，比如下面的房子：

大模型玩你画我猜：Claude6局3胜，GPT-4o表现迷惑

还有非常简洁的草地、海洋：

大模型玩你画我猜：Claude6局3胜，GPT-4o表现迷惑

大模型玩你画我猜：Claude6局3胜，GPT-4o表现迷惑

动物主题相对复杂一些，模型们一般需要猜4-5轮，比如大象这题：

大模型玩你画我猜：Claude6局3胜，GPT-4o表现迷惑

游戏整体效果非常棒，网友们也是好评如潮：

大模型玩你画我猜：Claude6局3胜，GPT-4o表现迷惑

你画我猜项目起源

模型画画早已不是新鲜事，但让大模型玩你画我猜？这天才想法是怎么产生的？

首先，不得不提到Simon Willison的一次测试，他让所有模型绘制自行车上有一只鹈鹕主题的图像，然后进行效果对比。

大模型玩你画我猜：Claude6局3胜，GPT-4o表现迷惑

随后Paul Calcraft看到测试，他产生了一个想法：这样一个个比对太慢了，效果也不好，既然都画同一个主题，为什么不让大模型玩你画我猜的游戏呢？

大模型玩你画我猜：Claude6局3胜，GPT-4o表现迷惑

没想到这位小哥说干就干，1天后就发布了“你画我猜”的0.0.1版（这令人羡慕的执行力）。

大模型玩你画我猜：Claude6局3胜，GPT-4o表现迷惑

游戏中，他设定回答的模型每2秒猜测一次，回答更快的模型会更快返回答案。

网友评价褒贬不一

不少网友表示，之前大模型在《我的世界》里面比赛盖楼，令人印象深刻，而你画我猜可能成为新的视觉benchmark！

还有人热心地提出了优化建议，比如以答对互相题目的速度作为评分准则，或者加入人类成绩作为参考。

大模型玩你画我猜：Claude6局3胜，GPT-4o表现迷惑

还有人提议将游戏变成对抗式训练，这样大模型会进步更快。

大模型玩你画我猜：Claude6局3胜，GPT-4o表现迷惑

不过，抛去趣味性，也有网友持负面观点，表示不理解这个项目的意义。

大模型玩你画我猜：Claude6局3胜，GPT-4o表现迷惑

有网友调侃说，这个游戏的作用就是成为未来AI考古时的文物，帮助它们了解自己的起源。

好嘛，咱们AI有自己的洞穴壁画（doge）。

大模型玩你画我猜：Claude6局3胜，GPT-4o表现迷惑

不过，游戏化学习（Learning through play）其实是教育理论和心理学中的一个重要术语。

大模型玩你画我猜：Claude6局3胜，GPT-4o表现迷惑

多位网友表示，小孩子也是通过玩游戏来提升智力、学习技能的，或许这可以成为训练大模型的新方式。

大模型玩你画我猜：Claude6局3胜，GPT-4o表现迷惑

大模型玩你画我猜：Claude6局3胜，GPT-4o表现迷惑

虽然这次只有6轮游戏，参与的模型也有限，但确实是一次很有趣的实践。

作者Paul Calcraft也表示会继续更新这个游戏，包括分数显示、更多的游戏主题等等，期待更多后续！

参考链接：

[1]https://twitter.com/paul_cal/status/1850262678712856764[2]https://www.reddit.com/r/singularity/comments/1gcval0/llm_pictionary/[3]https://x.com/simonw/status/1849854290153939171

— 完 —

Tags:

模型

相关推荐

NVIDIA深度适配通义千问大模型，推出舱驾融合大模型解决方案

2024-09-20

NVIDIA深度适配通义千问大模型推出舱驾融合大模型解决方案

2024-09-20

哈啰亮相2024云栖大会：展示AI整体布局及大模型案例

2024-09-20

在线可玩！智谱开源图生视频模型，网友直呼Amazing！

2024-09-20

奥特曼：o1仅仅是“推理模型的GPT-2”；黄仁勋：我给你加速50倍

2024-09-20

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

热门文章

香港生成式人工智能研发中心获2亿港元捐赠

杭州：争夺机器人第一城

2025-04-24 11:27

美国对华芯片管制将适得其反？专家：华为等中国厂商将受益！

2025-04-23 11:21

重庆首例！机器人辅助通过3里米小孔切除巨大肿瘤

2025-04-26 11:18

信银理财董文赜：拥抱变革向新求质——共赴银行理财高质量发展新征程

2025-04-24 13:24

成立香港仔机器人，国华（00370）按下人工智能转型加速键

2025-04-24 11:27

分析师：美国禁售AI芯片适得其反给中国送上巨大胜利

2025-04-22 18:27

国行版iPhone即将变身AI手机：iOS18.5正式版已在路上

2025-04-26 18:21

AI遇见FWA，赋予家庭连接新价值

2025-04-28 11:21

【VIP机会日报】政策面催化下跨境支付概念震荡走高栏目多维度梳理焦点公司收获涨停

2025-04-24 13:24