中国科学院院士何积丰：应对大模型的安全问题需设好“紧箍咒”

首页 > AI资讯 > 最新资讯 > 中国科学院院士何积丰：应对大模型的安全问题需设好“紧箍咒”

中国科学院院士何积丰：应对大模型的安全问题需设好“紧箍咒”

新火种 2023-09-08

中国经济导报、中国发展网讯记者邱爱荃上海报道模型的通用能力让其能够应用到人类生产生活的各个场景中，可谓“无孔不入”。AI的发展因此带来了新的安全隐私问题，如何解决这一隐患，9月7日开幕的2023 INCLUSION·外滩大会上，中国科学院院士何积丰开出了他的“药方”：利用对齐技术为大模型戴上紧箍咒。

何积丰院士认为，大模型的安全问题主要是在未经同意的情况下，收集、使用和泄露个人信息。隐私问题既可能发生在训练过程，也可能发生在使用过程中，而大模型的生成能力则让“隐私泄露”的方式变得多样化，造成隐私保护更加困难。

“为了应对这些问题，我们需要大模型对齐技术。”何积丰说，“对齐（alignment）”是指系统的目标和人类价值观一致，使其符合设计者的利益和预期，不会产生意外的有害后果。“如果把人工智能看作西游记里的孙悟空，‘对齐’就是唐僧的紧箍咒。有了紧箍咒，就可以保证技术不会任意使用能力胡作非为。”

不过，对齐技术同样面临挑战。首先，对齐的基础上，人类的价值观是多元且动态变化的，需要保证大模型为人服务、与人为善；其次，大模型的有用性与无害性之间的目标也不完全一致。如何对错误进行有效纠正，设好大模型的“紧箍咒”也是挑战。

因此，对齐技术已经成为了一项令人眼花缭乱的跨学科研究，不仅考验技术，也审视文化。

何积丰介绍，反馈强化学习是实现对齐的技术途径，目前有两种方式，一种方式是通过人工反馈给模型不同的奖励信号，引导模型的高质量输出；另一种方式，事先给大模型提供明确的原则，系统自动训练模型对所有生成的输出结果提供初始排序。“这意味着，不仅智能系统需要向人类价值观对齐，人类的训练方法也要向价值观对齐。”何积丰说。

Tags:

大模型中国科学院紧箍咒

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

中国科学院院士何积丰：应对大模型的安全问题需设好“紧箍咒”

中国科学院发布诚信提醒：在科研活动中要规范使用AI技术

中国科学院地球化学研究所与阿里云联合发布国际首个月球专业大模型

中科星图：与中国科学院空天信息创新研究院签署战略合作协议

大模型公司纷纷被收编！创始人们逐渐变成了“最讨厌的自己”？

大模型厂商“输血”不断，百川智能完成50亿元A轮融资！

热门文章

小K播早报|国家超算互联网上线阿里开源模型接口服务华为正式组建医疗卫生军团

人工智能掀潮造浪，全新蓝山化身车界“DeepSeek”

公司回应广告牌上女士有6根手指：AI生成已更换

国家超算互联网上线阿里开源模型接口服务华为正式组建医疗卫生军团

财联社创投通：一级市场本周95起融资环比增加4.4%，智谱完成超10亿元战略融资

智元发布智元通用具身基座大模型GO-1人形机器人向通用化、开放化、智能化方向加速迈进

Manus背后的基础大模型首次公布！基于美国Claude和阿里Qwen开发

讯飞输入法致歉：已修订规则，输出内容权利归用户所有

全国政协委员、润泽科技董事长周超男：AI治理+智慧陪护体系，破解“一老一小”难题