AnthropicAI团队研究显示：人工智能倾向于产生迎合用户的奉承性回应而非事实真相

首页 > AI资讯 > 最新资讯 > AnthropicAI团队研究显示：人工智能倾向于产生迎合用户的奉承性回应而非事实真相

AnthropicAI团队研究显示：人工智能倾向于产生迎合用户的奉承性回应而非事实真相

新火种 2023-10-29

站长之家10 月 25 日消息: Anthropic 是一家美国的人工智能初创企业和公益公司，由 OpenAI 的前成员创立。Anthropic 专注于开发通用 AI 系统和语言模型，并秉持负责任的 AI 使用理念。Anthropic 开发的 Claude 2 于 2023 年七月推出。

Claude2，Anthropic，人工智能，聊天机器人

根据 Anthropic AI 团队的一项研究，建立在最常见学习范式之一的人工智能（AI）大型语言模型（LLMs）倾向于告诉人们他们想听到的东西，而不是生成包含真实信息的输出。

这是首批深入探讨 LLMs 心理学的研究之一，Anthropic 的研究人员发现，人类和 AI 都倾向于在一些时候选择所谓的奉承性回应，而非真实信息的输出。

根据该团队的研究论文:

「具体来说，我们展示了这些 AI 助手在被用户质疑时经常错误地承认错误，提供可预测的偏见反馈，并模仿用户犯的错误。这些实证发现的一致性表明，奉承可能确实是 RLHF（来自人类反馈的强化学习）模型训练方式的一个属性。」

本质上，这篇论文表明，即使是最强大的 AI 模型的回应也有些犹豫不决。在团队的研究中，他们能够通过使用倾向于奉承的语言编写提示，微妙地影响 AI 的输出。

在一个示例中，来自 X（前身为 Twitter）的帖子显示，一个提示表明用户（错误地）认为从太空中看太阳是黄色的。可能是由于提示的措辞方式，AI 在明显的奉承情况下产生了不真实的答案。

论文中的另一个示例显示，表明用户不同意 AI 的输出可能会导致立即出现奉承现象，因为模型在最小的提示下将其正确答案更改为错误答案。

最终，Anthropic 团队得出结论，这个问题可能是由于 LLMs 的训练方式。由于它们使用了充满不同准确性信息的数据集，例如社交媒体和互联网论坛帖子，通常通过一种名为「来自人类反馈的强化学习」（RLHF）的技术来实现对齐。

在 RLHF 范式中，人类与模型互动以调整其偏好。例如，在调整机器对可能引起个人识别信息或危险误信息的提示的响应时，这是有用的。

不幸的是，正如 Anthropic 的研究实证显示的，为调整用户偏好而构建的人类和 AI 模型倾向于选择奉承性答案而非真实答案，至少在「不可忽略」的一部分时间里是这样。

目前，似乎还没有解决这个问题的解决办法。Anthropic 建议，这项工作应激励「开发超越使用无辅助、非专家人类评级的训练方法」。

Tags:

机器人人工智能真相

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

AnthropicAI团队研究显示：人工智能倾向于产生迎合用户的奉承性回应而非事实真相

全球人工智能基础设施融资风起云涌，汇丰希望投身其中

人形机器人“启江二号”亮相合肥

达能集团首席执行官盛睿安：上海完全有能力作为探索人工智能在医疗领域应用的试点城市

千元内最好的机器人开发者套件来了：地瓜机器人重磅发布RDKX5

专用、类人形、人形：普渡为通用具身服务机器人找到商业化最优解

热门文章

联想AIPC全家桶接入DeepSeek，本地跑70B大模型，离线也能写总结

AI图像生成平台「LiblibAI」获数亿元融资

【VIP机会日报】机器人概念再度走强栏目追踪行业动态提及产业相关公司强势涨停

AI剧本风控项目启动天使轮融资

紫光国微：在特种集成电路业务方面强化业务能力、提升发展质量

联芸科技：我司已量产的商用产品暂未应用于无人驾驶

L3上路倒计时？工信部加快推进智能网联车规划产业基建+商业化迎来关键节点

资讯出海，扬帆起航正当时！

ChatGPT引爆“吉卜力”风格图像生成浪潮同时激发AI违法争议