首页 > AI资讯 > 行业动态 > MetaLlama4被疑考试「作弊」:在竞技场刷高分,但实战中频频翻车

MetaLlama4被疑考试「作弊」:在竞技场刷高分,但实战中频频翻车

新火种    2025-04-08

Meta 翻车来得猝不及防。

上周六,Meta 发布了最新 AI 模型系列 ——Llama 4,并一口气出了三个款,分别是 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。

据官方介绍,在大模型竞技场中,它们的排名相当不赖。

就拿 Llama 4 Maverick 来说,总排名第二,成为第四个突破 1400 分的大模型。其中开放模型排名第一,超越了 DeepSeek;在困难提示词、编程、数学、创意写作等任务中排名均为第一。

图片

然而,不少网友体验后反馈,Llama 4 似乎是一个糟糕的编码模型。

@deedydas 发帖称,Llama 4 Scout(109B)和 Maverick(402B)在 Kscores 基准测试中表现不佳,不如 GPT-4o、Gemini Flash、Grok 3、DeepSeek V3 以及 Sonnet 3.5/7 等模型。而 Kscores 基准测试专注于编程任务,例如代码生成和代码补全。

图片

比如小球在旋转六边形中跳跃的测试中,Llama 4 的表现并不理想。

图片

底下评论区的网友也纷纷表示,无论是 Scout 还是 Maverick,在实际编程中好像都不好用,即使有详细的提示也不行。

图片

还有网友在 Novita AI 平台上测试了该模型,给出的结论是在复杂问题上有点吃力,但响应速度很快。

图片
相关推荐
免责声明
本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。