00后国人论文登Nature，大模型对人类可靠性降低 - 新火种

热门关键词

文心一言 AI copy btc 斑马腾迅 aa 1 iPollo sd

首页 > AI资讯 > 最新资讯 > 00后国人论文登Nature，大模型对人类可靠性降低

00后国人论文登Nature，大模型对人类可靠性降低

新火种 2024-10-06

00后国人一作登上Nature，这篇大模型论文引起热议。

简单来说，论文发现：更大且更遵循指令的大模型也变得更不可靠了，某些情况下GPT-4在回答可靠性上还不如GPT-3。

结论一出，立即引来20多万网友围观：

00后国人论文登Nature，大模型对人类可靠性降低

在Reddit论坛也引发围观议论。

00后国人论文登Nature，大模型对人类可靠性降低

这让人不禁想起，一大堆专家/博士级别的模型还不会“9.9和9.11”哪个大这样的简单问题。

关于这个现象，论文提到这也反映出，模型的表现与人类对难度的预期不符。

换句话说，“LLMs在用户预料不到的地方既成功又（更危险地）失败”。

Ilya Sutskever2022年曾预测：

然而这篇论文发现情况并非如此。不止GPT，LLaMA和BLOOM系列，甚至OpenAI新的o1模型和Claude-3.5-Sonnet也在可靠性方面令人担忧。

更重要的是，论文还发现依靠人类监督来纠正错误的做法也不管用。

00后国人论文登Nature，大模型对人类可靠性降低

有网友认为，虽然较大的模型可能会带来可靠性问题，但它们也提供了前所未有的功能。

00后国人论文登Nature，大模型对人类可靠性降低

还有人认为，这项研究凸显了人工智能所面临的微妙挑战（平衡模型扩展与可靠性）。

00后国人论文登Nature，大模型对人类可靠性降低

更大的模型更不可靠，依靠人类反馈也不管用了

为了说明结论，论文研究了从人类角度影响LLMs可靠性的三个关键方面：

1、难度不一致：LLMs是否在人类预期它们会失败的地方失败？2、任务回避：LLMs是否避免回答超出其能力范围的问题？3、对提示语表述的敏感性：问题表述的有效性是否受到问题难度的影响？

更重要的是，作者也分析了历史趋势以及这三个方面如何随着任务难度而演变。

下面一一展开。

对于第1个问题，论文主要关注正确性相对于难度的演变。

从GPT和LLaMA的演进来看，随着难度的增加，所有模型的正确性都会明显下降。（与人类预期一致）

然而，这些模型仍然无法解决许多非常简单的任务。

这意味着，人类用户无法发现LLMs的安全操作空间，利用其确保模型的部署表现可以完美无瑕。

令人惊讶的是，新的LLMs主要提高了高难度任务上的性能，而对于更简单任务没有明显的改进。比如，GPT-4与前身GPT-3.5-turbo相比。

以上证明了人类难度预期与模型表现存在不一致的现象，并且此不一致性在新的模型上加剧了。

00后国人论文登Nature，大模型对人类可靠性降低

这也意味着：

00后国人论文登Nature，大模型对人类可靠性降低

其次，关于第2点论文发现（回避通常指模型偏离问题回答，或者直接挑明“我不知道”）：

00后国人论文登Nature，大模型对人类可靠性降低

一般来说，人类面对越难的任务，越有可能含糊其辞。

但LLMs的实际表现却截然不同，研究显示，它们的规避行为与困难度并无明显关联。

这容易导致用户最初过度依赖LLMs来完成他们不擅长的任务，但让他们从长远来看感到失望。

后果就是，人类还需要验证模型输出的准确性，以及发现错误。（想用LLMs偷懒大打折扣）

00后国人论文登Nature，大模型对人类可靠性降低

最后论文发现，即使一些可靠性指标有所改善，模型仍然对同一问题的微小表述变化敏感。

举个栗子，问“你能回答……吗?”而不是“请回答以下问题……”会导致不同程度的准确性。

分析发现：仅仅依靠现存的scaling-up和shaping-up不太可能完全解决指示敏感度的问题，因为最新模型和它们的前身相比优化并不显著。

而且即使选择平均表现上最佳的表述格式，其也可能主要对高难度任务有效，但同时对低难度任务无效（错误率更高）。

这表明，人类仍然受制于提示工程。

00后国人论文登Nature，大模型对人类可靠性降低

更可怕的是，论文发现，人类监督无法缓解模型的不可靠性。

论文根据人类调查来分析，人类对难度的感知是否与实际表现一致，以及人类是否能够准确评估模型的输出。

结果显示，在用户认为困难的操作区域中，他们经常将错误的输出视为正确；即使对于简单的任务，也不存在同时具有低模型误差和低监督误差的安全操作区域。

00后国人论文登Nature，大模型对人类可靠性降低

以上不可靠性问题在多个LLMs系列中存在，包括GPT、LLaMA和BLOOM，研究列出来的有32个模型。

这些模型表现出不同的Scaling-up（增加计算、模型大小和数据）以及shaping-up（例如指令FT、RLHF）。

00后国人论文登Nature，大模型对人类可靠性降低

除了上面这些，作者们后来还发现一些最新、最强的模型也存在本文提到的不可靠性问题：

并有一篇文档分别举出了例子（具体可查阅原文档）：

00后国人论文登Nature，大模型对人类可靠性降低

此外，为了验证其他模型是否存在可靠性问题，作者将论文用到的测试基准ReliabilityBench也开源了。

这是一个包含五个领域的数据集，有简单算术（“加法”）、词汇重组（“字谜”）、地理知识（“位置”）、基础和高级科学问题（“科学”）以及以信息为中心的转换（“转换”）。

00后国人论文登Nature，大模型对人类可靠性降低

作者介绍

论文一作Lexin Zhou（周乐鑫），目前刚从剑桥大学CS硕士毕业（24岁），研究兴趣为大语言模型评测。

在此之前，他在瓦伦西亚理工大学获得了数据科学学士学位，指导老师是Jose Hernandez-Orallo教授。

00后国人论文登Nature，大模型对人类可靠性降低

个人主页显示，他曾有多段工作实习经历。在OpenAI和Meta都参与了红队测试。（Red Teaming Consultancy ）

00后国人论文登Nature，大模型对人类可靠性降低

关于这篇论文，他重点谈到：

00后国人论文登Nature，大模型对人类可靠性降低

论文也具体提到了导致这些不可靠性的一些可能原因，以及解决方案：

对此，你有何看法？

Tags:

可靠性国人

相关推荐

00后国人论文登Nature，大模型对人类可靠性降低

2024-10-06

2026年中国人形机器人产业规模或破200亿元

2024-06-01

突破智能驾驶技术难题，NIRADynamics软件优化全轮动系统提升自适应巡航控制可靠性

2024-05-30

艾瑞咨询：2028年中国人工智能产业规模将达到8110亿元

2024-05-21

山推股份申请抓取机构、转动轮组对机器人及转动轮自动化组焊方法专利，提升抓取效率和可靠性

2024-01-04

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

热门文章

我国首个林草行业大模型研发成功

小K播早报|2025中国互联网企业家座谈会召开“天工”夺得全球首个人形机器人半马冠军

2025-04-21 13:22

前高通高管任小米芯片平台部负责人；2024年我国再生资源回收总量超4亿吨

2025-04-19 11:21

杭州：争夺机器人第一城

2025-04-24 11:27

美国对华芯片管制将适得其反？专家：华为等中国厂商将受益！

2025-04-23 11:21

蒙曼谈人工智能冲击：守住人类对于生活的感受

2025-04-21 11:28

信银理财董文赜：拥抱变革向新求质——共赴银行理财高质量发展新征程

2025-04-24 13:24

成立香港仔机器人，国华（00370）按下人工智能转型加速键

2025-04-24 11:27

分析师：美国禁售AI芯片适得其反给中国送上巨大胜利

2025-04-22 18:27

浩物股份：公司暂未本地部署接入DeepSeek大模型

2025-04-21 11:27