人刚毕业,颠覆整个AI界:扒一扒Sora两带头人博士论文
看看这个时代最伟大 AI 学者的研究脉络。
2024 年是生成式 AI 元年,才到 2 月,OpenAI 就用 Sora 把竞争推向了视频生成的新高度。
我们都还记得初见 Sora 作品时受到的震撼,感叹其他竞争对手想要赶上 OpenAI,至少也得需要个半年到一年的时间。
Sora 发布后,其开发团队自然也成为关注焦点,人们都想知道具有跨时代意义的 AI 技术是如何被开发出来的。DiT 模型作者谢赛宁曾表示:「他们每天基本不睡觉高强度工作了一年」。
随着时间推移,答案正被慢慢揭晓。
以下是 OpenAI 技术报告中,Sora 的十三位作者:
其中的前两位,Tim Brooks、Bill Peebles,他们被认为是「Sora 之父」,担任 OpenAI Sora 项目研究主管,又十分年轻 —— 两人都是 2023 年刚刚从加州大学伯克利分校(UC Berkeley)博士毕业的。
在 Sora 技术公开后,他们曾共同进行宣讲,接受过很多媒体采访。
图片中间为 Tim Brooks,右侧为 Bill Peebles。
看两人的工作经历,他们分别是在 2023 年 1 月和 3 月加入 OpenAI 的。
我们知道,2022 年 11 月 30 日,OpenAI 的 ChatGPT 横空出世,由此掀起了大模型「颠覆世界」的浪潮。
他们追随传奇而来,如今回头望去,自己也成为了传奇。
作为 Sora 背后的主要推动者,Tim Brooks、Bill Peebles 两人的博士毕业论文,也都是以 AI 视频生成为主题的。是时候从技术发展的角度,来研究一下 Sora 的来龙去脉了。
Tim Brooks
个人主页:
Tim Brooks 博士毕业于 UC Berkeley 的「伯克利人工智能研究所」BAIR,导师为 Alyosha Efros。
在博士就读期间,他曾提出了 InstructPix2Pix,他还曾在谷歌从事为 Pixel 手机摄像头提供 AI 算法的工作,并在英伟达研究过视频生成模型。博士毕业后,Tim Brooks 加入 OpenAI,参与过 GPT-4、Sora 等多项研究。
2023 年,Tim Brooks 顺利毕业,博士论文接近 100 页。论文题目为《Generative Models for Image and Long Video Synthesis 》。
论文地址:
论文简介
在这篇博士论文中,Tim Brooks 提出了将图像和视频生成模型用于一般视觉内容创作的基本要素,主要体现在三个方面:
首先,论文介绍了长视频生成相关研究,并提出一种网络架构和训练范式,用于从视频中学习长程时间模式,这是将视频生成从较短的剪辑推进到较长形式且连贯视频的关键挑战。
接下来,论文介绍了基于人体姿态生成场景图像的研究,展示了生成模型用来表示人与周围环境之间关系的能力,并强调了从大型且复杂的日常人类活动数据集中学习的重要性。
最后,论文介绍了一种通过结合大型语言模型和文本到图像模型的能力来创建监督训练数据,从而指导生成模型遵循图像编辑指令的方法。这些工作共同提升了生成模型合成图像和长视频的能力。
Tim Brooks 表示,在他读博期间(2019-2023 年),图像和视频生成模型已经从小范围的演示发展成被广泛采用的创意工具。他非常庆幸自己能在这个关键的时刻攻读视觉生成模型的博士学位,他也对生成模型充满了信心。
接下来我们介绍一下 Tim Brooks 博士论文每章节的主要内容。
第 2 章专注于生成具有丰富动态和新内容的长视频。图 2.1 展示了模型能够生成丰富的运动和场景变化。
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。