“深思熟虑”的AI：OpenAI提出全新安全对齐方法

首页 > AI资讯 > 行业应用 > “深思熟虑”的AI：OpenAI提出全新安全对齐方法

IT之家 2024-12-28

IT之家 12 月 25 日消息，OpenAI 的研究人员提出了一种名为“深思熟虑的对齐”（Deliberative Alignment）的新方法，以提升 AI 模型安全性，并已在 o 系列模型中取得显著成效。

项目背景

如何确保大语言模型（LLMs）遵守明确的道德和安全准则，目前存在诸多挑战。监督微调（SFT）和来自人类反馈的强化学习（RLHF）等现有对齐技术都存在局限性，有被操纵的风险，可能会产生有害内容、拒绝合法请求或难以处理不熟悉的场景等问题。

这些问题通常源于当前安全培训的弊端，也就是模型从数据间接推断标准，而非明确地学习，通常缺乏考虑复杂提示的能力，从而限制了它们在微妙或对抗性情况下的有效性。

深思熟虑的对齐（Deliberative Alignment）

IT之家注：该方法直接教授模型安全规范，并训练它们在生成响应之前推理这些准则进，将安全原则融入推理过程中。

整个过程分为两个阶段，第一阶段，监督微调（SFT）训练模型参考并推理安全规范，使用从基础模型生成的数据集。第二阶段，强化学习（RL）使用奖励模型，根据安全基准评估性能，进一步完善模型的推理。

不同于依赖人工标注数据的方法，“深思熟虑的对齐”使用模型生成的数据和思维链（CoT）推理，降低了安全训练的资源需求。

OpenAI 的 o1 模型已部署该技术，在抵抗越狱提示方面表现出色，在 StrongREJECT 基准测试中得分为 0.88，显著高于 GPT-4o 的 0.37；此外该技术还可以减少误拒，在 XSTest 数据集的良性提示中，o1 模型的准确率高达 93%。

“深思熟虑的对齐”通过训练模型明确推理安全策略，它为复杂的伦理挑战提供了可扩展且可解释的解决方案。

参考

Deliberative Alignment: Reasoning Enables Safer Language Models

Tags:

AI媒体深思熟虑方法

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

2025-04-01 12:21

2025-04-01 12:21