陈俊龙:未来所有公共数据很可能被置于大型的通用模型中
12月19日上午,南方都市报、南都大数据研究院联合琶洲实验室、光明实验室在广州举办“势起AI 智启新界——大模型创新应用与安全治理大会”,欧洲科学院院士、琶洲实验室副主任、华南理工大学计算机科学与工程学院院长陈俊龙围绕“数据智能与新型数据隐私计算”发表了主旨演讲。在其看来,如果数据量够大,算力够强,未来所有公共数据很可能被置于大型的通用模型中,这个大模型有可能非常聪明,接近通用人工智能大模型。他强调,数据共享必须考虑隐私和安全的问题,当前除同态加密、差分隐私、联邦学习、安全多方计算四种隐私保护机器学习方法外,宽度学习在国内外的应用也非常广泛。
欧洲科学院院士、琶洲实验室副主任、华南理工大学计算机科学与工程学院院长陈俊龙围绕“数据智能与新型数据隐私计算”发表了主旨演讲。
大模型的产生改变了数据的运用模式
在演讲开始,陈俊龙表示,从2009以来信息技术经历了众多创新性的变革,包括物联网、云计算等,这些创新性的革命技术跟算法、算力与数据的涌现带来了人工智能第三次高潮。
接下来,他从高价值的应用、安全的挑战、数据的成本等三个层面阐述了当前大数据时代面临的困境。在其看来,场景依赖一个好的模型,依赖于数据,需要保护隐私,确保安全,以及模型是不是真的能解决场景问题。而大模型的产生改变了数据的运用模式,包括提示词与思维的能力、代码生成能力,大模型可以调度一些工具,可以利用本身的数据生成很多小模型。之前,很多企业会把数据嵌入到行业模型,数据跟着模型过来的。现在新的大模型,数据是用来训练模型的,一旦训练模型完成后就撤掉了。
据了解,正是由于数据的重要性,国家层面非常重视对数据全生命周期管理,包括数据采集、存储、处理、交换、传输、销毁等,实现数据安全“全领域、全要素、全类型”的全面覆盖,达到“全面防护,智能分析,自动响应”的数据安全防护效果,有效保护数据在全生命周期过程中的安全。其中,隐私保护非常重要,既是法理要求,国家安全需要,还是用户的需求。
大模型聪明程度依赖数据及算力品质
那么,如何更好保障数据隐私?在演讲中,陈俊龙详细分析了同态加密、差分隐私、联邦学习、安全多方计算等四种隐私保护机器学习方法。
他表示,联邦学习本质上是一种带有隐私保护的分布式机器学习框架,旨在让不同参与方在不向其他参与者披露隐私数据的前提下,共同协作完成机器学习的模型训练。多个用户共同参与模型训练时,原始数据可以不出本地,仅通过交互模型中间参数进行模型联合训练,实现“数据可用不可见”,优点是数据隔离,传递参数,有效使用深度神经网络,分析能力强,但也存在梯度数据有被复原原始数据的风险,缺乏理论保障、损失精度等缺点。
为此,基于他在2021年度获得文俊人工智能杰出贡献奖——首创的宽度学习系统,他提出了基于宽度学习的多方安全“新型隐私计算”。同时在今年的11月底,其首创的宽度学习系统也荣获今年中国科学院信息科学前沿科学研究热点第二名。
谈及安全多方计算,陈俊龙认为优点是一般满足零知识证明,安全性高,缺点是协议设计难度大。陈俊龙提到,大模型改变了信息对算法的思维,因为算力数据非常大,需要非常大的算力系统,这样就变成边缘端的数据处理、边缘端的计算非常重要。总而言之,大模型的出现让数据变得更有价值,大模型的聪明程度依赖数据及算力的品质,但需要考虑数据隐私及安全问题。
谈及广东刚刚发布的“通用人工智能发展22条”,陈俊龙接受南都采访时表示,广东提出加快建设通用人工智能产业创新引领地,我们要驾驭AI大模型赋能千行百业,助力数字经济高质量发展。
出品:南都大数据研究院
(文章来源:南方都市报)
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。