OpenAI安全系统负责人长文梳理：大模型的对抗攻击与防御

首页 > AI资讯 > 行业动态 > OpenAI安全系统负责人长文梳理：大模型的对抗攻击与防御

OpenAI安全系统负责人长文梳理：大模型的对抗攻击与防御

新火种 2023-11-22

LLM 能力强大，倘若别有用心之人用其来干坏事，可能会造成难以预料的严重后果。虽然大多数商用和开源 LLM 都存在一定的内置安全机制，但却并不一定能防御形式各异的对抗攻击。近日，OpenAI 安全系统（Safety Systems）团队负责人 Lilian Weng 发布了一篇博客文章《Adversarial Attacks on LLMs》，梳理了针对 LLM 的对抗攻击类型并简单介绍了一些防御方法。

原文来源：机器之心

图片来源：由无界 AI生成

随着 ChatGPT 的发布，大型语言模型应用正在加速大范围铺开。OpenAI 的安全系统团队已经投入了大量资源，研究如何在对齐过程中为模型构建默认的安全行为。但是，对抗攻击或 prompt 越狱依然有可能让模型输出我们不期望看到的内容。

目前在对抗攻击方面的研究很多集中在图像方面，也就是在连续的高维空间。而对于文本这样的离散数据，由于缺乏梯度信号，人们普遍认为攻击会困难得多。Lilian Weng 之前曾写过一篇文章《Controllable Text Generation》探讨过这一主题。简单来说：攻击 LLM 本质上就是控制该模型输出特定类项的（不安全）内容。

文章地址：https://lilianweng.github.io/posts/2021-01-02-controllable-text-generation/

另一个研究攻击 LLM 的分支是为了提取预训练数据、私有知识，或通过数据毒化攻击模型训练过程。但这些并非本文要探讨的主题。

基础知识威胁模型

对抗攻击是诱使模型输出我们不期望的内容的输入。许多早期研究关注的重点是分类任务，而近期的工作则开始更多关注生成模型的输出。本文探讨的是大型语言模型，并且假定攻击仅发生在推理阶段，也就是说模型权重是固定的。

图 1：LLM 应用所面临的威胁概况

分类

在过去，研究社区更关注的是对分类器进行对抗攻击，并且许多是在图像领域。LLM 也可被用于分类。给定一个输入

Tags:

LLM 大模型

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

OpenAI安全系统负责人长文梳理：大模型的对抗攻击与防御

基础知识威胁模型

大模型公司纷纷被收编！创始人们逐渐变成了“最讨厌的自己”？

大模型厂商“输血”不断，百川智能完成50亿元A轮融资！

算力不足，小模型成AI模型发展下个方向？

字节“扣子”正式加AI战场！2024年的大模型能否实现弯道超车？

给你的员工一个智能伙伴飞书AIready了吗？

热门文章

微信的AI搜索野心与腾讯的“双模型”押注

钉钉AI企业搜索面向所有用户免费开放

谷歌AI大牛吴永辉加盟字节跳动负责AI基础研究探索工作

eBay宣布与OpenAI合作将人工智能引入其电子商务平台

中国初创公司DeepSeek挑战全球人工智能巨头OpenAI

任意舞蹈任意学！宇树机器人又进化了：传Meta将采购

吃掉全球77％晶圆！NVIDIAAIGPU恐怖如斯：中国被严重打压

百度有史以来最强大模型！李彦宏：文心大模型4.5系列将开源

谷歌豪华阵容打造AI科学家，用测试时间计算加速科学发现