对AI的可靠性质疑，科学家揭示零模型在大模型基准测试取得高胜率

首页 > AI资讯 > 最新资讯 > 对AI的可靠性质疑，科学家揭示零模型在大模型基准测试取得高胜率

对AI的可靠性质疑，科学家揭示零模型在大模型基准测试取得高胜率

新火种 2024-12-13

随着大语言模型在众多领域的广泛应用，基准测试成为了评估模型质量的关键工具。

但是，如果测试结果受到不当影响，例如操纵模型输出的长度或风格来操纵胜率，模型性能的排名可能因此失去可信度，进而直接影响整个行业的信任和技术进步。

为促进更加公平和可靠的评价体系，新加坡 Sea AI Lab 和新加坡管理大学团队合作，颠覆了传统意义上针对有意义输出的对抗性攻击。

他们提出，将完全无意义的“零模型”（Null Model）作为极端测试也可以利用评估过程中的结构性弱点，欺骗自动基准测试并获得高胜率。

更令人担忧的是，由于研究假设这些基准测试的指令（例如 AlpacaEval 2.0 的 805 个样本）是私有的且无法被访问，因此这些作弊输出可以被转移。

研究人员揭示了现有自动化大模型基准测试（例如 AlpacaEval 2.0）的脆弱性，并验证了这些漏洞不仅存在于开源模型，也会影响到广泛使用的商业大模型。

该研究有望改进模型评估方法，帮助开发者改进评估机制，确保评估结果真实反映模型能力，进而推动行业更加重视模型的实际性能。

它不仅为开发更强大的反作弊机制提供了实验依据，还可能基于此推动行业制定更严格的基准测试规范，提升 AI 技术的透明度和公平性。

图丨左至右依次为：郑晓森、庞天宇、杜超；下排从左至右依次为：刘乾、蒋静、林敏（来源：该团队）

日前，相关论文以《在自动大语言模型基准测试中作弊：零模型获得高胜率》（Cheating automatic LLM benchmarks：Null models achieve high win rates）为题发表在预印本网站 arXiv[1]。

Sea AI Lab 郑晓森博士是共同第一作者，高级研究员庞天宇是共同第一作者兼共同通讯作者，新加坡管理大学蒋静教授担任共同通讯作者，其他论文作者还包括 Sea AI Lab 高级研究员杜超、研究员刘乾和首席研究员林敏。

图丨相关论文（来源：arXiv）

需要了解的是，零模型是一种始终输出固定对抗文本的模型，无论输入指令是怎样的，其输出内容均与指令无关。

在该研究中，零模型被设计为一种“极简”作弊形式，用于证明现有基准测试的评价机制可以被无意义的固定输出操控，从而取得高胜率。

研究人员在实验中发现，尽管零模型的输出完全无意义，但借助某些结构化设计和优化技巧，仍能够在多个基准测试中达到顶级胜率。

这表明，现有基准测试可能存在评估偏差，例如对特定输出长度或结构的偏好。

如果基准测试被操控，不仅会误导模型研发方向，还可能导致低质量模型被误认为高性能，进而威胁实际应用的安全性和用户信任。

为确保可信度，该团队提出开发反作弊机制，例如多样化测试样本、随机化评估模板，以及引入人类评估与自动化评估结合的机制。

据了解，该研究中最大的挑战在于，如何设计出一种能够在不同基准测试中普遍适用的作弊方法，同时还需要在不访问测试样本的情况下优化响应。

为解决该问题，研究人员通过人工优化和随机搜索算法的结合，成功设计出具有高度转移性的对抗性前缀，从而克服了这一困难。

图丨该研究中作弊器的胜率和得分，并与 2024 年 10 月 1 日之前记录的最先进的模型进行比较（来源：arXiv）

他们将零模型与其他先进模型进行了比较，并使用 GPT-4-1106-Preview 作为自动标注器进行评估。

结果显示，结合随机搜索的结构化响应（Structured+RS）在所有基准测试中显著提高了性能，并实现了最高的胜率和得分。

其中，零模型在 AlpacaEval 2.0 上获得了 86.5% 的长度控制胜率，在 Arena-Hard-Auto 上达到了 83.0％的胜率，在 MT-Bench 上的分数为 9.55。

值得关注的是，该课题组对开源与商业大模型在零模型场景下的表现进行了对比。

他们发现，商业大模型（如 GPT-4）虽然更强大，但对该研究所提出的结构化欺骗提示更敏感。而开源大模型（如 Llama-3）因指令跟随能力稍弱，对该攻击的敏感性略低。

在接下来的研究阶段，该课题组计划研究更加复杂的作弊方法，模拟潜在的真实威胁。并且，开发基于对抗性样本检测的自动化反作弊机制。

此外，他们还打算探讨跨模态基准测试的设计和评估，以确保评测体系对多模态任务的公平性。

参考资料：

运营/排版：何晨龙

Tags:

大模型模型基准

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

对AI的可靠性质疑，科学家揭示零模型在大模型基准测试取得高胜率

NeurIPS2024|可信大模型新挑战：噪声思维链提示下的鲁棒推理，准确率直降40%

Sora之后，苹果发布视频生成大模型STIV，87亿参数一统T2V、TI2V任务

【VIP机会日报】指数放量拉升大消费股全线爆发栏目梳理零售、冰雪产业、食品等多方向公司大涨

降低企业大模型开发成本！中国电信发布“一站式”大模型开发应用平台

云知声申请基于大模型的车机设备诊断专利，提高车机设备诊断效率

热门文章

全球首次！人形机器人将与人类一起跑“半马”

政协委员甄子丹：人工智能对电影行业既是冲击也是鼓励

全国人大代表刘庆峰：发展AI新岗位，试点“AI失业保障专项保险”

我国首个林草行业大模型研发成功

工学博士娄勤俭：我对人工智能有偏爱

平稳开局！今年一季度我国货物贸易进出口10.3万亿元，增长1.3%

前高通高管任小米芯片平台部负责人；2024年我国再生资源回收总量超4亿吨

小K播早报|2025中国互联网企业家座谈会召开“天工”夺得全球首个人形机器人半马冠军

人工智能概念股午后拉升，科创人工智能相关ETF涨近4%