首页 > AI资讯 > 行业动态 > OpenAI安全系统负责人长文梳理:大模型的对抗攻击与防御

OpenAI安全系统负责人长文梳理:大模型的对抗攻击与防御

新火种    2023-11-22
LLM 能力强大,倘若别有用心之人用其来干坏事,可能会造成难以预料的严重后果。虽然大多数商用和开源 LLM 都存在一定的内置安全机制,但却并不一定能防御形式各异的对抗攻击。近日,OpenAI 安全系统(Safety Systems)团队负责人 Lilian Weng 发布了一篇博客文章《Adversarial Attacks on LLMs》,梳理了针对 LLM 的对抗攻击类型并简单介绍了一些防御方法。

原文来源:机器之心

图片来源:由无界 AI生成

随着 ChatGPT 的发布,大型语言模型应用正在加速大范围铺开。OpenAI 的安全系统团队已经投入了大量资源,研究如何在对齐过程中为模型构建默认的安全行为。但是,对抗攻击或 prompt 越狱依然有可能让模型输出我们不期望看到的内容。

目前在对抗攻击方面的研究很多集中在图像方面,也就是在连续的高维空间。而对于文本这样的离散数据,由于缺乏梯度信号,人们普遍认为攻击会困难得多。Lilian Weng 之前曾写过一篇文章《Controllable Text Generation》探讨过这一主题。简单来说:攻击 LLM 本质上就是控制该模型输出特定类项的(不安全)内容。

文章地址:https://lilianweng.github.io/posts/2021-01-02-controllable-text-generation/ 

另一个研究攻击 LLM 的分支是为了提取预训练数据、私有知识,或通过数据毒化攻击模型训练过程。但这些并非本文要探讨的主题。

基础知识威胁模型

对抗攻击是诱使模型输出我们不期望的内容的输入。许多早期研究关注的重点是分类任务,而近期的工作则开始更多关注生成模型的输出。本文探讨的是大型语言模型,并且假定攻击仅发生在推理阶段,也就是说模型权重是固定的。

图 1:LLM 应用所面临的威胁概况

分类

在过去,研究社区更关注的是对分类器进行对抗攻击,并且许多是在图像领域。LLM 也可被用于分类。给定一个输入

Tags:
相关推荐
免责声明
本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。