Sora配得上一句「遥遥领先」吗?
Sora没有让「现实不存在了」,毕竟现实中的杠精依旧存在。
文 | 佘宗明
Sora+苹果头显VisionPro+脑机接口=?
这注定是个没有标准答案的问题。
在e/acc(有效加速主义)思维中,答案也许是「颠覆」「革命」「iPhone时刻」等大词不够用,「未来已来」的既视感愈发强烈。
在EA(有效利他主义)视角里,这可能意味着风险连着风险:深度伪造、后真相,意念失控、脑波异样……
担心「被AI替代」、热议「××行业已死」,成了Sora在舆论场激起的链式反应。震惊体和重磅发布体标题堆砌,则成了自媒体蹭热点的标准姿势。
在网上,还有些YY达人用脑补那些难以描述画面的方式,代偿着《完蛋!我被美女包围了》玩完后的意犹未尽:戴上VR眼镜,就能观看由自己意念发出的Prompt(提示词)生成的小视频,男主角是自己,女主角是刘亦菲杨幂刘诗诗热巴……
▲从Sora生成的视频中,可以看到女子眼部的细节变化。
虽然打开方式各异,但现实中,大多数人终究是承认「二向箔原产地供应商」OpenAI的优秀的:去年初ChatGPT爆火带来的AI大模型热余温犹在,今年初文生视频大模型Sora又将AIGC推向新里程碑,怎一个「了得」二字了得?
饶是如此,仍有不少人对「开年王炸中的王炸」Sora翻起了白眼——他们手里拿着DAO、DeFi、NFT、Crypto的概念合订本,准备在上面再加个「Sora」。
每场技术变革,都是在被质疑中扩散开来的,「泡沫论」几乎是每个风口都挥不去的阴影。
只不过,对Sora的质疑里,还掺杂了更为复杂的情绪配方。这类情绪配方,跟「大国技术差距」的对照关联,也被民族情绪托起的某种力场强化。
这番景象,让惯于自己打倒自己的胡锡进都有些坐不住。
在ChatGPT刚问世时,面对「胡锡进要被替代」的调侃,他还能调侃着回应「老胡不依附任何时髦的东西」。
到了Sora问世时,面对Sora「不代表什么」的论调,他怒斥这是「睁着眼睛硬说」「太不负责任」「给广大网民们灌迷魂汤」,还感慨:最可怕的是我们不敢面对问题,在一切都OK甚至很好的自我安慰和陶醉中,变得麻木。
挺耐人寻味的。
01
尽管总有「新工业革命」之类的强冲击字眼蹦出来提醒人们:AI时代大幕已启,人类离通用人工智能(AGI)又更近一步,ChatGPT和Sora面世都是标志性节点……可总有些从新卢德主义余烬里窜出的「看空」话语,跟「看多」声量形成对冲。
在盛产奇观的简中舆论场,把Sora看成「又一个Web3」「下一个元宇宙」的贬抑话语含量更是超标。很多人绣口一吐,就是一个「奇技淫巧」。
Sora明明凭着具备超长生成时间(60s)、单视频多角度镜头、细节高度仿真、理解物理世界等优势,实现了对同行的降维打击,引得Runway、Pika Labs、Stable Video几大竞品都俯首称臣。
▲谷歌今年1月发布的视频模型Lumiere演示了图生视频案例,却终究难逃被Sora艳压的命运。
可他们却微微一笑:无他,大力出奇迹尔。
Sora本是依托两项核心技术突破的突破——Spacetime Patch(时空Patch)技术和Diffusion Transformer(扩散型 Transformer)架构。
可他们却摆了摆手:这些技术又不新,全靠咱们谢赛宁。
你还想说些什么,他们甩出一堆翻车神图:椅子漂浮、反向跑步、玻璃杯诡异碎裂……然后满脸不屑地说:Sora也就比人工智障多走了几步而已,它能用多个1分钟视频「拼」成2小时的电影吗?不能。能表现影视剧中复杂的人物内心活动吗?不能。能生成三维化虚拟世界让人在里面嗨吗?不能。
▲Sora生成的视频中出现了椅子悬浮的反物理学画面。
很显然,Sora没有让「现实不存在了」,毕竟现实中的杠精依旧在。
02
Sora当然没有免于质疑的豁免权。
Sora引爆科技圈后,满屏盛赞的同时就有许多质疑声冒出来。
点赞的人很多。
马斯克在X平台(原推特)上感慨:「GG Humans」「被人工智能增强的人类,将会在未来几年之内创作出最杰出的作品。」之后又不无遗憾地透露:特斯拉早在1年前就掌握了类似OpenAI的视频生成技术,它的真实世界模拟和视频生成是全世界最好的,奈何受限于算力不足。
▲马斯克在X平台上感慨:被人工智能增强的人类,将会在未来几年之内创作出最杰出的作品。
在OpenAI推出Sora的当天(2月16日)宣布Stable Video Diffusion更新1.1版本后又删除动态的AI视频生成初创公司Stability AI CEO埃马德·莫斯塔克在X平台上感叹:「奥特曼(OpenAI创始人兼CEO)真是个魔术师」,并称Sora可以被视为AI视频的GPT-3。
Runway的CEO克里斯托瓦尔在X平台上发了句「Game On(比赛开始了)」。
Pika创始人郭文景表示:「我们觉得这是个很振奋人心的消息,我们已经在筹备,将直接对标Sora。」
英伟达高级研究科学家兼人工智能代理负责人Jim Fan认为,Sora代表了文本生成视频的 GPT-3 时刻。他断言,「Sora 是个数据驱动的物理引擎……是个可学习的模拟器或世界模型」。
▲英伟达高级研究科学家Jim Fan认为,Sora是个世界模型。
被誉为「最懂DiT架构科学家」的谢赛宁说:Sora将改写整个视频生成领域。
360集团创始人周鸿祎更是据此预言,「AGI实现将从10年缩短到1年」。
质疑者也不乏其人。
Open AI自称Sora是「世界模拟器」,可很多大神级科学家不答应。
图灵奖得主、Facebook首席AI科学家杨立昆(Yann LeCun)怒斥,Sora不能理解物理世界。他还顺势安利了Meta前几天推出的AI视频模型 V-JEPA联合嵌入预测架构的优越性。
▲杨立昆认为,Sora并不能理解物理世界。
前谷歌、Facebook技术主管Hongcheng也表示:「AI模型不大可能通过被动看训练数据视频,就能掌握物理定律。」言下之意,再聪明的智能体,也不大可能通过看太阳东升西落的视频,就能悟出地球围着太阳转。
谷歌AI研究员、Keras之父弗朗索瓦·肖莱分析,从Sora生成的部分视频看,它是依赖于数据插值和潜空间拼贴来生成图像,而不是真实的物理模拟。
在他看来,通过机器学习模型拟合大量数据点后形成的高维曲线(大曲线)在预测物理世界方面是存在局限的,因为现实世界的复杂性和多样性不是AI模型能够通过有限数据就全部学习到的。
围绕Sora到底是不是物理引擎、世界模型的争论,估计一时半会无法止息。
03
Sora免不了被质疑,但质疑跟质疑也有区别。
人家争论火箭推进器燃料用C2H4、N2H4、高级硼硅烷哪个好,终归是科学范畴的讨论,你在旁边嚷着「得烧柴,最好是烧煤,煤还得精选,水洗煤不行」,就多少有些民科了。
目前看,网上已经冒出了很多大聪明,就在用「精选煤思维」看Sora。
秉持「蒸汽机不就是个活塞吗」的简化逻辑,他们一眼看穿了Sora的「本质」:不就是大力出奇迹吗?
还有人顺带着抛出一张图——「Web3.0,颠覆了时代;Houseclub,颠覆了时代;GoogleGlass,颠覆了时代;元宇宙,颠覆了时代……回头一看,时代还是原样」,硬生生将Sora问世的意义拉低到「造词游戏」的维度。
左一个「纯属彻头彻尾的炒作」,又一个「一惊一乍没出息」,他们就差来上一句「不过是奇技淫巧尔」了。
▲由Sora生成的「赛博朋克背景下机器人的生活故事」。
Sora的惊艳场面,他们选择性无视;Sora的翻车画面,他们拿着放大镜看。
也不奇怪:用前现代思维理解现代技术的人,是难有从明天看今天的「明天观」的,你跟他们说Sora可以像ChatGPT向GPT-4非线性跨越那样快速进化,形同于鸡同鸭讲。
通用人工智能时代的大门都已经叩开了,他们却站在门外不入,还哼着「全都是泡沫,只一刹的花火」。
跟他们说「中美科技差距又……」,更是碰到了他们的逆鳞。
事实上,在Sora问世后,「大国科技差距」的问题总是无法回避。
在ChatGPT引爆大模型军备竞赛后,中国出现了百模大战,不少国内大模型厂商都声称多项能力已经赶超ChatGPT。但OpenAI掏出「秘密武器」Sora,又让许多人认清了现实。
周鸿祎就分析,中美间的AI差距还在扩大。
也有人认为,差距有是有,但没那么大。
如昆仑万维CEO方汉就认为,「国内厂商和国外厂商在文生视频的差距,不像大模型领域的差距那么大。」从技术上看,Sora领先国内同行大概半年。
▲Sora跟其他多个视频模型的区别。
差距是大是小,固然言人人殊,但首先得正视差距的存在。
现在的问题是,有些人习惯了错把「顺差」当「逆差」的思维意识中,对自媒体三天两头渲染的「光刻机大突破!」深信不疑,对「领跑-跟跑」角色锚定的差距却视而不见。
华大基因CEO尹烨这两天就撰文说:
如果把人类已经存在的语言、图像、音频、视频等这些资料库看成是人类文明的金矿,但是你已经有挖掘机了,我却被限制只能用铁锹,长此以往会是什么样的结果?
我们在芯片的问题上,可能犯了刻舟求剑的错误。比如总有一种声音,认为我们能够突破14纳米,甚至认为如果我们能追赶到7纳米,我们就会赢,但这个前提是我们的竞争对手就不进步了,就在原地等着。我并不是说,你追赶到14纳米、7纳米不重要,而是你要明白,竞争对手会在同样的时间,实现3纳米、2纳米,甚至1纳米。
我们可以在战略上藐视,但不能不在战术上重视……当下据不完全统计,国内号称有大模型的公司,已经有300多家,相信大部分还是「多小散乱」,面对GPT在简体中文的世界里,似乎尚能一战,但面对Sora的横空出世,可有一个能打的,甚至是接近的吗?
说到底,缩短差距的前提,永远是正视差距。
04
胡锡进之所以驳斥那些对准Sora的「奇技淫巧论」,究其原因大概就在于,诸如此类的颇具误导性。
把ChatGPT或Sora的深远影响降维,以维持「科技赶超」想象,只会是自我麻痹。到头来,面对技术革命轻易转过身去,没准是跟正在到来的AI时代擦肩而过。
要知道,AI时代的技术演化不是匍匐向前的,而是跳跃式的——经常从一个断层跃上另一个断层。
眼下我们就已进入科技发展的「最后7分钟(施拉姆语)」时刻。越是这时候,我们越不能搞「颅内闭关」。
就在过去1个月,全球科技圈发生了很多事:
1,英伟达(Nvidia)前不久发布了在本地运行的名为「Chat with RTX」的Demo版个性化AI聊天机器人。高性能AI处理器的加持,会加速AI+N类终端浪潮的到来。
2,2月16日,谷歌发布Gemini1.5,上下文窗口长度扩展到100万个tokens(GPT4-turbe12.8万tokens),是目前最大的上下文窗口。这其中,Gemini1.5pro能一次处理1小时的视频、11小时音频、超3万行的代码库、超70万字的代码库。说出来的是「最大」,没说出来的是「完爆GPT-4」。
3,2月17日,Meta推出了名为「V-JEPA」的视频预测模型。在此之前,Meta还推出了AI视频模型Fairy。看得出来,杨立昆对Sora100个不服。
4,差不多1个月前,奥特曼的7万亿美元造芯计划被曝出,旨在对标英伟达。从算力集群到芯片制造,奥特曼下了一盘很大的棋。
5,春节前,阿里巴巴发布了通义千问大模型Qwen-1.5版本,涵盖了6个不同参数规模的型号。节后伊始,OPPO、魅族都宣布,停止传统智能手机研发,资源向AI手机集中。
毫无疑问,Sora的出现,也是大时代的注脚。
▲Sora根据Prompt提示生成的纸工艺品的海洋世界。
在此语境中,我们对Sora价值的认知镜框,该是AI时代的背景框,而不是预设立场的思维框架。
2月19日,「天才少年」谢赛宁在朋友圈辟谣「谢赛宁是Sora发明者」之余,就抛出了一个问题:(大家)在问Sora为什么没出现在中国的同时,可能也得问问,假设真的出现了(可能很快),我们有没有准备好?
目前看,答案一目了然:很多人都没做好准备。
「没做好准备」体现在很多方面。
比如,在硅碳融合的重要关口,在浪潮已来的关键节点,有些人依旧是拿着前现代的眼光看现代技术变革,依然是用狭隘思维看技术浪潮。
又如,AI产业发展需要依托于创新友好型生态和氛围。拿AI视频模型来说,它要拼工程化调参能力、拼算力,更要拼创新生态与创新土壤。唯有宽松包容的环境,才能更好地激发企业与人才创新的强劲活力、创造的内生动力。揆诸现实,如果说,缺芯是外部掣肘,那摆在企业面前的内部掣肘也不少。
科技观察者王兆洋就假设:OpenAI不是transformer模型发明者,Stable Video不是diffusion模型发明者,如果它们诞生在中国,会不会也躲不过被骂「套壳」的命运?看到这,雷军兴许会湿了眼眶。
厄休拉·M. 富兰克林在《技术的真相》里说:「技术的发展和运用从一个社会结构中产生,然后被嫁接在这个结构之上。」
她认为,「尺寸是生长的自然结果,但生长本身是不能被强取的,它只能通过提供一种适宜的环境而得到培育和鼓励。生长是发生性的,不是制造出来的。」
某种程度上,「我们为Sora的到来准备好了吗」的孪生命题是:我们为「Sora」的培育提供了适宜的社会结构了吗?
05
Sora没有说自己「遥遥领先」,但毋庸讳言,就眼下看,它配得上一句「遥遥领先」。
而弥补跟先行者的差距,靠的自然不是「人家OpenAI的Sora一路狂飙,我们199元的Sora名(割)师(韭菜)课铺天盖地」,而是做真正该做的事。
在Sora问世后,有人写道:这意味着,未来的美国将更加美国,未来的中国将更加中国。
这句话的指向有很多,但最不该有的一个,是「差距Bigger Than Bigger」。
*头图为Sora生成的多个视频的动图集锦。
?作者 | 佘宗明
?运营| 李玩
原文标题:Sora配得上一句「遥遥领先」吗?
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。