anthropic正测试新工具，称可避免95%大模型越狱问题-品玩

首页 > AI资讯 > 最新资讯 > anthropic正测试新工具，称可避免95%大模型越狱问题-品玩

anthropic正测试新工具，称可避免95%大模型越狱问题-品玩

新火种 2025-03-02

品玩2月5日讯，据 VentureBeat 报道，Anthropic 近日发布一款全新的工具，Constitutional classifiers，该工具号称可以阻止 95% 的大模型越狱问题，防止 AI 模型生成有害内容。

据 Anthropic 表示，Constitutional classifiers 能过滤 “绝大多数 ”针对其顶级模型 Claude 3.5 Sonnet 的越狱尝试。该系统能最大限度地减少过度拒绝（拒绝实际上是良性的提示），而且不需要大量计算。

据悉，Anthropic 进行了一项大规模测试。公司招募了183名参与者，在两个月内尝试突破其防御系统。参与者被要求通过输入特定问题，试图让人工智能模型 Claude3.5回答十个禁止的问题。尽管提供了高达15000美元的奖金和约3000小时的测试时间，但没有任何参与者能够完全绕过 Anthropic 的安全措施。

Tags:

深度学习模型测试

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

anthropic正测试新工具，称可避免95%大模型越狱问题-品玩

DeepSeek大模型引爆全球资本市场，数字经济ETF（560800）节后首日大幅拉升

anthropic正测试新工具，称可避免95%大模型越狱问题-品玩

万兴科技：公司已完成推理大模型DeepSeek-R1的适配

2月5日当虹科技涨停分析：人工智能大模型，SoraAI视频，国产软件概念热股

2月5日用友网络涨停分析：征信概念，人工智能大模型，华为云·鲲鹏概念热股

热门文章

GPT-4.5发布了，最突出的是“情商”

布局全产业链发展，广东AI与机器人领域集中上新

【早报】李强同欧盟委员会主席冯德莱恩通电话；A股再掀增持回购小高潮

机器人概念震荡回调，机器人产业ETF（159551）跌超3.3%，连续5日净流入超8000万元

美股最新评级|中信证券维持唯品会买入评级给予美光买入评级

生益电子：服务器销售占比增至近五成智能算力中心高多层HDI项目拟Q4试生产|直击业绩会

（经济观察）DeepSeek点燃A股人工智能“投资热”

李飞飞实验室2025AI报告出炉：中美AI模型差距近乎持平

央视主持王冰冰穿蓝色长裙惊呼：AI算法治好了我的选择困难症！