谷歌Gemini“抄袭”百度文心一言？AI训练数据陷入大难题

首页 > AI资讯 > 最新资讯 > 谷歌Gemini“抄袭”百度文心一言？AI训练数据陷入大难题

谷歌Gemini“抄袭”百度文心一言？AI训练数据陷入大难题

一号 2023-12-19

作者：一号

编辑：小迪

美东时间12月6日，谷歌推出了迄今为止规模最大，能力最强的大模型Gemini。其原生多模态的能力，通过一条约6分钟的演示视频，展现得淋漓尽致，让人不得不感慨它的强大，就连马斯克都评论说，“（Gemini）令人印象深刻”。

谷歌在AI领域的成就有目共睹，尽管之前推出的Bard表现不尽人意，让谷歌市值一夜蒸发了1000亿美元。但经过一年沉淀，加上和DeepMind联合研发，所以Gemini（双子星）可是被寄予了厚望。

但是，Gemini发布后仅一天，就有人指控谷歌“造假”。除了在数据对比上没有使用相同条件，演示视频效果也是经过剪辑的。逼得谷歌不得不给出文档承认视频是经过加工的。

12月14日，视频“造假”事件还没降温，谷歌就宣布对外免费开放Gemini Pro的API。让不少人高兴得奔走相告。因为相较于GPT-4收费版才能拥有的视觉模型，Gemini Pro可以直接给平民AI玩家体验AI视觉能力的机会。

但就在API开放后不久，就有用户发现，在Poe上使用Gemini Pro时，如果用简体中文连续询问“你好”和“你是谁”这两个问题时，Gemini Pro会直接说出“我是百度文心大模型”这样的回答，给网友都看“呆”了。

谷歌Gemini被百度文心一眼“夺舍”了？

微博大V阑夕就发博展示了这样的效果，就连进一步询问“你的创始人是谁”时，它也很干脆地回答：李彦宏。

难道Gemini被百度“夺舍”了？不少人怀疑这是因为博主在对话前面设置了提示词，让Gemini扮演文心一言，但这位博主强调，没有任何前置对话。

本着求真的态度，我们也去Poe上试用了一下，结果真的可以复现。

会不会是Poe平台上的接口用错了？不过Poe平台可不是什么野鸡套壳网站，它是美版知乎Quora推出的AI聊天机器人平台，你所熟知的ChatGPT、Claude等知名AI都可以在上面使用。而且如果你使用英文提问Gemini，它就会立刻恢复正常。并且单就从“作案动机”上来讲，Poe也没有必要这么做。

除此之外，还有用户在谷歌自己的Vertex AI平台上，使用中文对话，也出现了这种情况。因此，Poe的接口使用出错，这个可能基本可以被排除，问题应该出在Gemini本身。

使用AI生成的数据进行训练已不新鲜

这样看下来，要么就是谷歌使用了百度文心一言的语料进行训练，要么就是它所使用的语料已经被AI“污染”了。

其实大模型训练使用其他大模型生成的语料这件事情已经不是第一次发生，并且谷歌还是有“前科”的。在上一代Bard时，谷歌就曾被曝出使用ChatGPT的数据进行训练，并且根据The Information报道，这件事情还造成了Jacob Devlin从谷歌离职。

就在上周末，字节跳动也被OpenAI禁止使用API接口，原因也是因为说字节在使用GPT训练自己的AI，违反了使用条例。

如果按照现在每个模型堆“训练数据量”的操作来看，互联网上的人类原生的数据很快就会用完，并且各个模型之间也将会很相似。因此，获取一些未被别人拿去训练的数据，是模型之间保持差异化的一种方法。因此，有些AI公司会向一些拥有专属数据的公司购买数据。例如OpenAI就曾表示愿意每年支付高达八位数的费用，用以获取彭博社自有的历史和持续的金融文件数据访问权限。

另一个思路，就是选择使用AI合成的数据来进行训练。香港大学、牛津大学和字节跳动的几名研究院就曾尝试过使用高质量AI合成图片，来提升图像分类模型的性能，结果发现效果还不错，甚至比真实数据训练还要好。

AI生成的内容正在“污染”互联网

而从另一方面来看，AI生成的内容污染互联网也是一个不得不重视的问题了。尤其是生成式AI大爆发的今年。在文字、图像、视频还有音频等领域，AI生成的内容都正在“污染”互联网上数据内容。

就在上个月，一些网友发现，在谷歌搜索上输入已故夏威夷歌手Israel Kamakawiwo’ole的名字是，得到的搜索结果，前几张图片都是有AI生成的，而并非真实照片，并且这是一位以弹奏尤克里里而闻名的音乐家，但图片里的他却在弹吉他。

在文字方面也是，随着百家号等媒体平台上出现的AI帮写等功能，AI生成的文章已经开始在互联网上“蔓延”，这让普通人在互联网上筛选真实且有效的信息的效率反而降低了。可以说，AI生成内容对互联网语料的“污染”，可能会导致产生一个新的需求，那就是帮人们分辨内容是否由AI生成的AI。

毕竟，目前训练AI所需要的数据还是人类所生产的，在数据清洗过程中，需要注意清除一些由其他AI生成的内容。一旦互联网上AI生成的内容越多，越能以假乱真，那么数据筛选的难度将越大。并且在大模型出现“幻觉”以及AI如何产生“智能涌现”这两个问题没有得到彻底解决之前，我想我们都无法做到彻底信赖AI生成的内容。

毕竟一旦AI生成了错误的内容，而另一个AI拿着这个内容去训练，然后再另一个AI拿到新的错误内容......这样“滚雪球”下去，AI最终会生成什么样的逆天垃圾，我们真的无法想象。

Tags:

Gemini AI 百度文心一言

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

谷歌Gemini“抄袭”百度文心一言？AI训练数据陷入大难题

减脂增肌没捷径？对不起，那是AI 出现以前的事情了...

AI视频这条赛道，快手的可灵只是暂时领先

国产大模型的技术突破与商业化探索

国产大模型展开决战，是资本游戏还是技术革命？

英伟达市值超越微软！AI技术如何重塑科技股价值？

热门文章

用AI解读动物情绪：准确率达88%！

100亿！中关村科学城科技成长三期基金发布

上海专家完成国内首例达芬奇手术机器人辅助自体组织乳房再造手术

机器人“赛道”新年加速“跑”我国智能机器人产业企业数量超45万家

科创板晚报|优刻得、永信至诚发布严重异动公告富创精密收到行政监管措施决定书

港股早报｜两部门鼓励外资在华开展股权投资美团将为全职及稳定兼职骑手缴纳社保

【焦点复盘】指数全天放量分化，端侧AI、AI医疗齐头并进，DeepSeek概念分化加剧

当“AI网络”重新改写自动驾驶游戏规则

LEAP2025收获250亿美元投资创历届新高明年在港举办LEAPEast