增强AI时代数据安全
邬贺铨
数据安全贯穿数据全生命周期。狭义的数据安全是免受篡改和破坏。广义的数据安全包括数据的可靠性、数据安全性、服务和内容的安全性,在人工智能时代还会扩展数据安全的内涵,当然也会放大数据安全的风险。
数据安全包括从数据采集、数据融合、服务生成到内容应用等环节的安全。首先是网络基础设施方面涉及数据的可靠性,包括传输链路可靠性、算力节点、数据中心、数据库包括存储设备可靠性。二是数据安全技术,包括身份识别、数据属性、数据流动管理、数据加密水印等。三是数据服务与内容安全技术,包括数据所有权管理技术、数据交易技术管理、开放共享管理、人工智能深度防伪、AI幻觉的控制、AI服务的数据内容合规等。
数据中心的灾备需要重点考虑。我们国家对数据灾备建设有投资,但是灾备往往能力不足,现在就需要加强对数据的异地容灾备份。大家都希望容灾的时候数据不丢失或者说丢失量很低,过去灾备的间隔是一天主备复制一次,在丢失的时候可能会丢一天的数据,但现在可能要缩短到一小时复制一次,而且复制的链路可靠性要求很高、时延要求更低。灾备需要对数据定期复制。但是,数据复制间隔越密,它的效率就越低。从数据丢失开始到真正切换还有故障识别、故障判断的过程,这段时间可能会影响数据,在恢复正常之后还要再切回去。利用分布的公有云做容灾备份是发展趋势。
实际上,在数据中心内部也仍存在安全问题。数据中心内部本身要做到无损,但往往有些时候单个算力节点能力不足,就导致需要动员多节点来协同,算力节点间需要大容量光传输链路,因此对光传输链路的时延、丢包会有严格的要求。
不同类型的数据对安全要求不同,我们需要识别数据是国家机密数据、企业秘密数据还是涉及大量用户敏感信息数据。过去的互联网没有识别,不知道所承载的数据是什么,现在有了IPv6,可以对源地址和目的地地址验证,还可利用APN6(应用感知)和iFIT(随流检测)可以知道这个数据源端使用者的身份和对信道服务质量的要求,还可实时获得信道的时延、抖动、丢包率等性能参数。这样可以实现路径溯源,从而支持数据跨境流动管理。
网络安全是数据安全的基础,一般来说,通过加密可以保护数据。但是加密数据也可能被勒索病毒再次加密,需实时对软件版本进行核对与接入审计。尽管我们很重视网络安全,但是也不能因为安全而不促进数据的流通、不促进数据的应用。企业双方都想利用对方的数据,但是都不愿意把自身的原始数据交给对方,如果交给第三方,也不一定相信第三方的公正和安全。
现在可以利用隐私计算和多方同态加密的技术,选择一个特定的密钥,让数据加密以后计算结果等效于没有加密的计算,就能实现数据可用不可见。通过这种办法可以实现数据的融合。现在还有一种技术,把企业的数据打散了之后分布式进行存储,然后加入密钥的控制,可以按需根据对方企业的需要把数据调入沙箱,然后再进行解密计算,这相对来讲比同态加密要简单。
人工智能的出现让数据可信性面临挑战。因为生成式大模型是基于统计和模式识别的,别看它有上下文的关联,但是并不等于全局性和对物理世界的透彻了解,而且有些场合的数据很少。训练数据少,训练的场景缺失,可能会出现低级错误甚至常识性错误。另外,数据可能是受到干扰的。在大模型训练的时候也会受到无意的或者恶意的诱导,会使AI误判。AI应用会增加很多的挑战。
为应对这些挑战,要加强数据质量控制,使用高质量多样化的数据训练。要对算法优化和模型评估改进,定期审查和测试。需要开展伦理审查,特别是对可能产生重大社会影响的应用进行事先审批,帮助用户理解AI的运作方式和潜在风险。还可利用区域截图、放大缩小等预处理发现数据被篡改或AI被滥用,进一步保障数据安全。
(作者系中国工程院院士、中国互联网协会专家咨询委员会主任)
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。