MetaLlama4被疑考试「作弊」：在竞技场刷高分，但实战中频频翻车

首页 > AI资讯 > 行业动态 > MetaLlama4被疑考试「作弊」：在竞技场刷高分，但实战中频频翻车

MetaLlama4被疑考试「作弊」：在竞技场刷高分，但实战中频频翻车

新火种 2025-04-08

Meta 翻车来得猝不及防。

上周六，Meta 发布了最新 AI 模型系列 ——Llama 4，并一口气出了三个款，分别是 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。

据官方介绍，在大模型竞技场中，它们的排名相当不赖。

就拿 Llama 4 Maverick 来说，总排名第二，成为第四个突破 1400 分的大模型。其中开放模型排名第一，超越了 DeepSeek；在困难提示词、编程、数学、创意写作等任务中排名均为第一。

然而，不少网友体验后反馈，Llama 4 似乎是一个糟糕的编码模型。

@deedydas 发帖称，Llama 4 Scout（109B）和 Maverick（402B）在 Kscores 基准测试中表现不佳，不如 GPT-4o、Gemini Flash、Grok 3、DeepSeek V3 以及 Sonnet 3.5/7 等模型。而 Kscores 基准测试专注于编程任务，例如代码生成和代码补全。

比如小球在旋转六边形中跳跃的测试中，Llama 4 的表现并不理想。

底下评论区的网友也纷纷表示，无论是 Scout 还是 Maverick，在实际编程中好像都不好用，即使有详细的提示也不行。

还有网友在 Novita AI 平台上测试了该模型，给出的结论是在复杂问题上有点吃力，但响应速度很快。

Tags:

大模型翻车竞技场

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

MetaLlama4被疑考试「作弊」：在竞技场刷高分，但实战中频频翻车

MetaLlama4被疑考试「作弊」：在竞技场刷高分，但实战中频频翻车

飞渡科技峥嵘大模型：数字孪生平台的AI心脏，驱动全行业智能升级

华为与宜兴联合发布城市安全大模型“天机镜”

科创板晚报|澜起科技、道通科技等回应美国关税影响天德钰Q1净利同比预增117%

协同效应显性化！“扫地茅”石头科技国内外营收双位数增长铸就“韧性曲线”

热门文章

问界M9车主体验华为自动充电机器人：有点慢、但很稳

钛媒体AGI独家｜小米华为争夺AI大模型研发人才，年薪最高120万元，AI工程师岗位增长近70%

OpenAI发布GPT-4.1全新系列模型！全面超越GPT-4o更聪明、更便宜

重磅！OpenAI确定GPT-4退役日期：4月30日

科大讯飞宣布完成星火深度推理大模型x1的全面升级

42.5Exaflops：谷歌新TPU性能超越最强超算24倍，智能体协作协议A2A出炉

和英伟达脱钩何小鹏：小鹏自研图灵AI芯片提前上车

抖音回应上线辟谣卡功能：人工+AI提升处理效率

中国智造再突破优必选推动机器人群体智能进化