微软、OpenAI用上“数据永动机”合成数据是蜜糖还是砒霜？

首页 > AI资讯 > 最新资讯 > 微软、OpenAI用上“数据永动机”合成数据是蜜糖还是砒霜？

微软、OpenAI用上“数据永动机”合成数据是蜜糖还是砒霜？

新火种 2023-09-22

《科创板日报》7月22日讯（编辑郑远方）AI大模型对数据的庞大需求之下，AI公司们正在摸索一条获取数据的“新路”——从零开始自己“造”数据。

微软、OpenAI、Cohere等公司已经开始测试使用合成数据来训练AI模型。Cohere首席执行官Aiden Gomez表示，合成数据可以适用于很多训练场景，只是目前尚未全面推广。

已有的（通用）数据资源似乎接近效能极限，开发人员认为，网络上那些通用数据已不足以推动AI模型的性能发展。Gomez便指出，网络极为嘈杂混乱，“它并不能为你提供你真正想要的数据，网络无法满足我们的一切需求。”

之前，ChatGPT、Bard等聊天机器人的训练数据多来自于互联网，例如电子书、新闻文章、博客、推特与Reddit的推文帖子、Youtube视频、Flickr图片等。但随着AIGC技术愈发复杂，高质量数据的获取难度也越来越大。开发AI模型的科技公司们，也因不当使用数据而遭受多方抨击。

今年5月的一场活动上，OpenAI首席执行官Sam Altman曾被问及，是否担心监管部门调查ChatGPT可能侵犯用户隐私的事。Altman对此不置可否，并表示自己“非常有信心，很快所有数据都将是合成数据”。

▌人类真实数据售价高昂

为了大幅提高AI模型的性能，提升它们在科学、医学、商业等领域的水平，AI模型需要的是“独特且复杂”的数据集。而这类数据或是需要来自科学家、医生、作家、演员、工程师等“内行人”，或是需要从药企、银行、零售商等大型企业获取专业数据。

这也就带来了让AI公司们转向合成数据的另一层原因——数据太贵了。

且不说那些技术含量极高的制药、科学数据，光是之前Reddit和推特给出的数据采集要价，都被Gomez“嫌弃”价格太高。

其中，Reddit本月起开始对数据接口使用收费。根据第三方软件Apollo的开发者Christian Selig透露，Reddit收费标准为0.24美元/1000次API响应——对于Apollo来说，这大约相当于200万美元/月开销。

而根据推特今年3月发布的API政策，企业需要为抓取推文的API支付每月4万美元至20万美元不等的费用，对应可以获得5000万至2亿条推文。而测算数据显示，最低一个档次的套餐只约等于整体推文的0.3%。

在这种情况下，合成数据自然成了一个实惠方案，不仅可以避开这些数据的高昂售价，还能生成一些更复杂的数据来训练AI。

▌如何用合成数据训练？

具体如何用合成数据训练AI大模型？Gomez举了一个例子：

在训练一个高级数学模型时，Cohere可能会使用两个AI模型进行对话，其中一个扮演数学老师，另一个则充当学生。之后这两个模型就会就三角函数等数学问题对话，“其实一切都是模型‘想象’出来的”。

如果在这个过程中，模型说错了什么，人类就会在查看这段对话时作出纠正。

而微软研究院最近的两项研究，也表明合成数据可以用来训练AI模型，这些模型一般比OpenAI的GPT-4、谷歌的PaLM-2更小更简单。

在其中一篇论文中，GPT-4生成了一个名为“TinyStories”的短篇故事合成数据集，里面使用的单词全部非常简单，一个四岁儿童都能理解。这一数据集被用来训练一个简单的大语言模型，后者能生成流畅且语法正确的故事。

另一篇论文中，AI可以通过合成的Python代码进行训练，并在之后的编码任务中给出相对较好的表现。

▌蜜糖还是砒霜？

想要合成数据的客户有了，供应商自然也如雨后春笋般涌现，例如Scale AI、Gretel.ai等初创公司。Gretel.ai由来自美国国安局和中情局的前情报分析师成立，其已与谷歌、汇丰银行、Riot Games、Illumina等公司合作，用合成数据来扩充现有数据，帮助训练人工智能模型。

Gretel.ai首席执行官Ali Golshan表示，合成数据的关键在于，它既能保护数据集中所有个人的隐私，又能保持数据的统计完整性。

同时，合成数据还可以消除现有数据中的偏差和不平衡。“举例来说，对冲基金可以研究黑天鹅事件，我们可以创建一百种变体，看看模型能否破解；而对于银行来说，欺诈事件通常不到总数据的百分之一，Gretel的软件可以生成成千上万的欺诈案例，并以此训练AI模型。”

不过，也有人不看好合成数据。

反对派认为，并不是所有合成数据都经过精心调试，并能反映或改进真实世界。

来自牛津、剑桥、帝国理工等机构研究人员发现，合成数据的负面影响甚至堪比“毒药”。如果在训练时大量使用AI内容，会引发模型崩溃（model collapse），造成不可逆的缺陷。

新一代模型的训练数据会被上一代模型的生成数据所污染，从而对现实世界的感知产生错误理解。随着时间推移，模型就会忘记真实基础数据部分。即使在几乎理想的长期学习状态下，这个情况也无法避免——研究人员也将此形容为“AI大模型患上‘痴呆症’”。

即便是合成数据从业人员Golshan也坦承，在劣质合成数据上进行训练可能会阻碍进步。

“网上越来越多的内容都是由AI生成的。随着时间推移，这确实会导致退化，因为这些大模型产生的知识都是重复的，没有任何新的见解。

Tags:

TensorFlow 永动机数据

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

微软、OpenAI用上“数据永动机”合成数据是蜜糖还是砒霜？

阿里云发布首个“Data+AI”驱动的一站式多模数据平台

8月全球AI搜索数据出炉，知乎直答访问量增长345%

华为董事：西方AI把中国的数据都送到国外我们接受不了！

深圳考生：高考作文题与“AI大数据”有关

OpenAI推出ChatGPT大学教育版：数据不用于训练模型

热门文章

100亿！中关村科学城科技成长三期基金发布

2025商业新愿景｜面壁智能CEO李大海：端侧模型将加速变得“无处不在”

上海专家完成国内首例达芬奇手术机器人辅助自体组织乳房再造手术

科创板晚报|优刻得、永信至诚发布严重异动公告富创精密收到行政监管措施决定书

机器人“赛道”新年加速“跑”我国智能机器人产业企业数量超45万家

港股早报｜两部门鼓励外资在华开展股权投资美团将为全职及稳定兼职骑手缴纳社保

【焦点复盘】指数全天放量分化，端侧AI、AI医疗齐头并进，DeepSeek概念分化加剧

当“AI网络”重新改写自动驾驶游戏规则

LEAP2025收获250亿美元投资创历届新高明年在港举办LEAPEast