首页 > AI资讯 > 最新资讯 > 生成式人工智能与知识产权

生成式人工智能与知识产权

新火种    2023-09-28

编者按:知识产权问题我们已经争论了500年。我们之所以要发明知识产权这个东西,为的是保护独创性。但是,任何新东西哪个没有“消化”、“吸收”、“借鉴”,谁不是站在巨人的肩膀上?所以细究下来,这就是一笔糊涂账。但在生成式人工智能时代,这笔账开始变得更加糊涂了。也许,我们又要重新定义知识产权和保护的范畴了。文章来自编译。

如果你把全世界所有的知识都放进人工智能模型里面,然后用它来创造出新的东西,那么这东西归谁呢?谁可以获得报酬?这是一个我们已经争论了 500 年的全新问题。

至少在过去五百年的时间里,我们一直在用这样或那样的方式讨论着知识产权问题,每一次新的技术或创造力浪潮都会引发新的争论。我们给作曲家发明了演出著作权,我们决定,摄影——“机械复制”——可以成为艺术受到保护,在 20 世纪,我们必须就如何思考从录制到音乐,从 VHS 到采样的一切做出决定。生成式人工智能以新的方式(甚至是以旧的方式)又把其中的一些问题提出一遍,但它也提出了一些新的难题——总是最好的那种。

就最简单的意义而言,我们很快就会推出这样的智能手机app,你只需要说一声“给我播放这首歌,但要用泰勒·斯威夫特的声音”。这是一种新的可能性,但我们非常了解知识产权的理念——会有很多人争论谁该得到什么样的报酬,但我们知道我们认为精神权利是什么。唱片公司已经就此与谷歌进行对话。

但是,如果我说“给我制作一首泰勒·斯威夫特风格的歌”,或者更令人费解一点,“给我制作一首过去十年最热门流行歌曲那种风格的歌”的话,又会发生什么呢?

一个人无法完美地模仿另一个声音(印象派画家不必支付许可费),但他们可以听一千个小时的音乐之后制作出那种风格的东西——我们有时称之为“模仿”。如果做这件事情的是人的话,他们就不必向所有那些(被模仿的)艺术家支付费用,所以如果我们用计算机来做这件事情的话,我们需要付钱给他们吗?我觉得我们不知道自己是如何看待这个问题的。我们可能知道法律是怎么规定的,但我们可能想改变这一点。

类似的问题也出现在艺术上,并且存在一些有趣的文化差异。如果我让Midjourney给我某位艺术家风格的图像,有些人会认为这是明显的、彻头彻尾的盗窃,但如果你与佳士得或苏富比的专家聊天,或者到曼哈顿下城或梅费尔的画廊闲逛,那里的大多数人不仅不同意,而且对这个前提感到困惑——如果你以“辛迪·谢尔曼(Cindy Sherman)的风格”创作出一幅画,你并没有盗窃她的作品,任何看重辛迪·谢尔曼的人都不会认为你的作品是替代品(除非是像理查德·普林斯那样完全复制她的作品)。我知道我同意哪一个观点,但这并不重要。我们是如何就嘻哈的采样达成共识的?事实上,我们同意理查德·普林斯的看法吗?我们会搞清楚的。

我们再来看另一个问题。我想大多数人都明白,如果我在 Facebook 上贴出新闻报道的链接并告诉我的朋友去看,然后报纸就要我为此付费是荒谬的。事实上,报纸在撰写点评的时候并不会向餐馆支付一定比例的费用。如果我能让 ChatGPT 去阅读十个报纸网站并把今天的头条新闻摘要告诉我,或者向我解释一个大新闻的话,那么报纸的抱怨突然就变得合理许多——现在科技公司确实在“利用新闻” 。不出所料,当 ChatGPT 宣布推出自己的网络爬虫时,新闻网站就开始屏蔽这个爬虫了。

但就像我举的那个“做点类似十大热门金曲”的例子一样,ChatGPT 不会复制内容本身,事实上,我可以让实习生替我阅读论文并给出总结(我经常把人工智能说成是无限量供应的实习生)。这可能会违反ChatGPT自我声明的服务条款,但通常认为摘要(而不是摘录)是不受版权保护的——事实上,没有人认为本newsletter违反了我链接所指向网站的版权。

这是不是意味着我们会认为这不是问题?答案可能与这个或那个国家今天的法律所规定的内容无关。相反,思考这个问题的一种方式可能是这样:人工智能可以大规模地实现以前只能在小范围内实现的事情。这或许就是兜里揣着通缉照片的警察与在每个街角都安装上支持人脸识别的摄像头的警察之间的区别——规模上的差异可能会变成原则上的差异。我们想要什么样的结果?我们希望法律是什么样的?法律可以做什么?

但我认为,真正的知识难题不是你可以让 ChatGPT 找出今天的头条新闻,而是一方面所有头条新闻都放在训练数据的某个地方,而另一方面,它们并不在模型之中。

OpenAI 不再公开自己具体使用了什么内容,但即便它不是基于盗版书来进行训练,肯定也使用了“Common Crawl”( 编者注:一个海量的、非结构化的、多语言的网页数据集,包含了超过8 年的网络爬虫数据集)的一些数据,对整个互联网进行了百分比达两位数的采样。所以,你的网站可能也在其中。但训练数据不是模型。 LLM 不是数据库。它们通过查阅了人们创建的大量文本来推断或演绎出语言模式——我们会写出内涵逻辑和结构的东西,LLM会查看这些文本并从中推断出模式,但不会保留这些文本。因此,ChatGPT 可能已经看过《纽约时报》上千篇的文章,但并没有保存那些文章。

此外,这一千篇文章本身也是只是全部训练数据的一小部分。LLM的目的不是要了解任何特定文章或小说的内容,而是要了解人类集体智慧的输出存在什么模式。

也就是说,这不是 Napster(编者注:一款可以让用户在网上下载自己想要的MP3文件的软件)。 OpenAI 并没有 “盗版”使用你的书或你的文章,这不是我们通常意义的“盗版”,它也没有把你的那些书或文章免费分发出去。事实上,它对你那本特别的书根本就没有需要。用Tim O'Reilly的名言来说,数据不是石油,而是沙子。沙子只有总数达到数十亿才有价值,而你的小说、歌曲或文章只是筑就大金字塔的一粒尘埃。如果必须的话,OpenAI 可以在没有任何报纸的情况下重新训练 ChatGPT,而且这可能并不重要——它可能不太能够回答有关曼哈顿上东区新开的咖啡店哪一家最好这样的问题,但同样地,这从来都不是它的目标。这不应该是一个预言机或数据库。相反,作为理解人类思考方式的替代途径,它应该通过尽可能多地观察人们的说话方式,来推断出“智能”(一个占位词)。

另一方面,它也不是非要你的书或网站不可,也不关心你具体写了什么,但它确实需要“所有”的书籍和“所有”的网站。如果一家公司删掉自己内容对它没什么影响,但如果每一家公司都这么做的话就不行了。

如果说这至少是未来十年的一项基础性的新技术(不管关于通用人工智能的任何讨论结果如何),并且它要靠我们所有人共同充当机械土耳其(mechanical turks)人来给它投喂数据(哪怕是事后)的话,我们大家能不能获得报酬?我们会不会共同决定不干?或者会怎样? “这件事情价值一万亿美元,并且有赖于利用我们所有的工作,但你自己的个人工作只占其中的 0.0001%,所以你什么也得不到”,这似乎有点不能让人满意。称之为“公平使用”是不是就够了?甚至这是不是对的?或者不管答案是哪一个,这重要吗?我们会不会修改有关公平使用的法律?

到最后,也许这些并不是那么的重要:“大语言模型”中的“大型”是个移动标靶。这项技术之所以开始发挥作用,是因为 OpenAI 往哪个漏斗里面投入的数据比任何人想象的还要多好几个数量级,然后另一头就产生出合理且出色的结果,但我们没法再次往里面添加更多数量级的数据了,因为剩下的数据确实没那么多了。与此同时,这些事情的成本和规模意味着现在很大一部分的研究工作都是为了用更少的数据获得相同或更好的结果。也许他们根本就不需要你的书。

与此同时,到目前为止我一直在讨论进入到模型里面的东西——那么从里面出来的东西呢?如果我用受过过去 50 年音乐数据训练的引擎来制作出听起来像是全新且原创的东西呢?任何人都不应该幻想不会发生这种情况。在提出了很多我认为我们还不知道答案的问题之后,有一点对我来说似乎完全是清楚的:这些东西都是工具,你可以用工具来创作艺术,也可以用来制作猫的图片。我可以购买卡地亚·布列松(Cartier-Bresson)买过的同一款相机,我可以按下按钮然后拍摄出一张照片,我一笔都不需要画,但这并不是艺术家的本质——摄影的关键在于你把镜头对准哪里,你看到了什么图像,以及你选择了哪一幅图像。没人会说这张图片是机器制作的。同样地,我可以在没有任何技巧的情况下在Midjourney或 ChatGPT 上按下“Go”,但得到好东西也是一样的困难。现在它们正处在达盖尔银版摄影法(编者注:法国巴黎一家著名歌剧院的首席布景画家达盖尔于1839年发明的利用水银蒸汽对曝光的银盐涂面进行显影作用的方法)阶段,但人们会用它们来创作我们没想象到的艺术,这不是因为我们缺乏技能,而是因为我们不是艺术家。Nader来了。

也许更有趣的问题是,Spotify 上面已经有大量“白噪音”及类似曲目,它们操纵推荐算法,每次播放获得的版税堪比泰勒·斯威夫特或滚石乐队。如果我们真的能够制作“过去十年热门歌曲风格的音乐” ,那么会有多少这样的音乐,我们又该如何应对呢?我们该如何找到好东西,或者如何定义好东西?又或者,我们会关心这些吗?

几周前,在伦敦的一家美术馆里,我看到了丢勒的一幅版画,但其实它不是丢勒的版画,而是拉斐尔的学生雷蒙迪(Raimondi)在 1506 年左右制作的复制品。Vasari告诉我们,丢勒对此非常愤怒,跑到威尼斯把学生给告了。威尼斯地方法官对这个问题的思考框架我很欣赏:他们的裁决是雷蒙迪可以继续制作复制品,但不能再把丢勒的logo放进去。这是一个与知识产权相关的案件,但判决也是两种真实性观念之间的巧妙分歧。我们关不关心它是谁制作的?为什么要制作?或者我们只是想要这张照片?这就是为什么有些人对音乐生成器或Midjourney感到恐惧(或者,150 年前,对相机感到恐惧),而另一些人则根本不担心的原因。

译者:boxi。

相关推荐
免责声明
本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。