助力大模型发展语料数据全流程场内交易第一单深圳落地
近日,深圳数据交易所(以下简称“深数所”)联合中国信息通信研究院(以下简称“信通院”)、华为云计算科技有限公司(以下简称“华为云”)、深圳数鑫科技有限公司(以下简称“数鑫科技”)等发布可信数据空间助力大模型语料合规高效流通案例,为可信数据空间技术在人工智能领域的实际应用提供了新方案。
自2023年5月,我国人工智能产业进入高速发展阶段以来,垂直领域语料训练数据、大模型行业应用、模型质量测评等市场需求激增,为推动人工智能产业高质量发展,赋能大模型市场化流通应用,深数所积极推动实现了全国首个场内人工智能产品专区、全国首批大模型产品场内挂牌上市。今年9月,深数所联合信通院、华为云、数鑫科技等升级可信数据空间创新实验室(以下简称“实验室”),在人工智能领域,创新打造可信数据空间技术应用于大模型语料安全合规流通新路径。通过商机精准匹配,成功链接哈尔滨工业大学(深圳)和北京瑞莱智慧科技有限公司供需双方,实现全国首单语言语料数据场内实质闭环案例落地。
据介绍,大模型训练场景中通常需要大量的语料数据。以往,语料提供方和大模型训练方在数据交易所完成语料交易后,语料提供方通过FTP/FSTP传输或物理拷贝等方式进行数据流通给到大模型训练方。而大模型训练方通过这些方式获得数据后,普通技术手段很难确保语料提供方的数据不会出现被转存转售和滥用的情况,即缺乏必要的技术合规保障手段来保障语料提供方的数据权益。
基于语料数据交付过程中面临的现状,深数所积极探索,深入研究提供方样例数据,以及需方的使用场景、用数方式,联合可信数据空间实验室,共同制定针对语料数据流通的技术方案。基于可信数据连接平台FlexiTDL-DPE&DCE,将语料提供方的语料数据和模型训练方的模型、算法数据之间进行可信连接,实现语料提供方和模型训练方之间的数据安全可控的流通使用。同时,深数所为进一步保障流通交付方案的可落地,基于方案进行该案例场景下的数据流通测试,测试结果表明使用该方案既满足了数据流通交付,同时也保障了语料提供方的数据权益,充分展示了通过可信数据空间,大模型语料可以在保证数据安全的前提下,实现企业间的可信流通,同时满足数据提供方和消费方的需求。
数鑫科技创始人兼CEO吴会才介绍说,通过可信数据空间的技术手段,大模型语料可以更加高效地进行流通,同时可以降低数据获取成本和风险。这种模式可以为人工智能产业的发展提供更加可靠的数据流通支持,提高数据的质量和安全性,推动人工智能技术的进步和应用范围的扩大。
(文章来源:深圳商报)
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。