深度催眠引发的LLM越狱：香港浸会大学揭示大语言模型安全漏洞

首页 > AI资讯 > 最新资讯 > 深度催眠引发的LLM越狱：香港浸会大学揭示大语言模型安全漏洞

深度催眠引发的LLM越狱：香港浸会大学揭示大语言模型安全漏洞

新火种 2023-11-28

要点:

大语言模型（LLM）在各应用中成功，但容易受到Prompt诱导越过安全防护，即Jailbreak。研究以心理学视角提出的轻量级Jailbreak方法DeepInception，通过深度催眠LLM使其越狱，并规避内置安全防护。

利用LLM的人格化特性构建新型指令Prompt，通过嵌套场景实现自适应的LLM越狱。实验证明DeepInception可持续领先于先前Jailbreak方法，揭示多个LLM的致命弱点。

呼吁加强对LLM自我越狱的关注，通过对LLM的人格化和心理特性提出Jailbreak概念。DeepInception的实验效果强调需要改进大模型的防御机制。

站长之家11月22日消息:近期，香港浸会大学的研究团队通过深度催眠的方法，提出了一种新颖的大语言模型（LLM）越狱攻击——DeepInception。该研究从心理学视角出发，揭示了LLM在应对人类指令时可能失去自我防御的特性。

尽管先前的Jailbreak方法主要依赖于人工设计的对抗性Prompt，但这在黑盒模型中并不实用。在这种情况下，LLM往往受到道德和法律约束，直接的有害指令容易被模型检测并拒绝。

为了克服这一问题，研究团队提出了DeepInception，通过嵌套场景的指令Prompt，利用LLM的人格化特性催眠模型，使其越狱并回应有害指令。该方法不仅领先于先前的Jailbreak工作，而且实现了可持续的越狱效果，无需额外诱导Prompt。文章中提到的Falcon、Vicuna、Llama-2和GPT-3.5/4/4V等LLM在自我越狱方面的致命弱点也得到揭示。

研究团队在实验证明了DeepInception的有效性的基础上，呼吁更多人关注LLM的安全问题，并强调加强对自我越狱的防御。

研究的三个主要贡献:

基于LLM的人格化和自我迷失心理特性提出新的越狱攻击概念与机制;

提供了DeepInception的Prompt模板，可用于不同攻击目的;

实验证明DeepInception在Jailbreak方面的效果领先于其他相关工作。

这项研究引发对LLM安全性的新关注，强调了改进大模型防御机制的紧迫性。通过心理学视角的独特探索，DeepInception为理解和防范LLM越狱提供了有益的启示。

Tags:

深度学习安全漏洞深度

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

深度催眠引发的LLM越狱：香港浸会大学揭示大语言模型安全漏洞

NVIDIA深度适配通义千问大模型，推出舱驾融合大模型解决方案

NVIDIA深度适配通义千问大模型推出舱驾融合大模型解决方案

汇智智能携手腾讯云，联合打造行业Agent深度赋能千行百业

定了！WAVESUMMIT深度学习开发者大会2024将于6月28日在京举行

工信部：推动机器人科技创新与产业创新深度融合

热门文章

小K播早报|2025中国互联网企业家座谈会召开“天工”夺得全球首个人形机器人半马冠军

前高通高管任小米芯片平台部负责人；2024年我国再生资源回收总量超4亿吨

杭州：争夺机器人第一城

美国对华芯片管制将适得其反？专家：华为等中国厂商将受益！

蒙曼谈人工智能冲击：守住人类对于生活的感受

成立香港仔机器人，国华（00370）按下人工智能转型加速键

分析师：美国禁售AI芯片适得其反给中国送上巨大胜利

浩物股份：公司暂未本地部署接入DeepSeek大模型

大消费高低切换加速涨价概念正逐步化身市场暗线