别急着捧杀谷歌Veo2，毕竟曾被吹上天的Sora也翻了车

首页 > AI资讯 > 行业动态 > 别急着捧杀谷歌Veo2，毕竟曾被吹上天的Sora也翻了车

别急着捧杀谷歌Veo2，毕竟曾被吹上天的Sora也翻了车

新火种 2024-12-24

AI好好用报道

编辑：杨文为了考住Veo2,也是难为人类了。
总被 OpenAI 压着打的谷歌，终于扬眉吐气了！
最近，谷歌连上几款大模型，个个备受好评。
先是推出最强 AI 大模型 Gemini 2.0，接着又官宣了 AI 视频生成模型 Veo2，直接对着 OpenAI 的 Sora 贴脸开大。
据介绍，Veo2 能生成 2 分钟以上时长、4k 分辨率的视频，也能理解提示词中的相机控制指令，还能重建出符合真实世界的物理交互和人脸表情。
同时，在基于人类评估者的对比评估中整体表现远超对手。
（该图也侧面显示，在 AI 视频生成模型方面，中国真的冲到了第一梯队，成为谷歌也不容小觑的对手）
一众大佬也齐刷刷为其站台。
官方给出的演示视频也相当惊艳。
《权力与游戏》中的龙在高楼大厦间穿梭，这效果是不是吊打不少视觉特效师？
（视频来自X博主@shlomifruchter）
一只猫对着镜子中的自己咆哮，但它看到的却是自己像狮子一样在吼叫：
（Prompt:A cat roars while looking at its reflection in the mirror but instead sees itself as a lion roaring.）
谷歌 DeepMind 研究员 @babaeizadeh 还制作了一系列动画风格的土豆小人情景喜剧。
（Prompt:anime style footage of two potatoes having a sword fight. cinematic, fastpaced with a lot of shotcuts.)
不过，与几个月之前的 Sora 类似，Veo2 目前也尚未对公众开放。
这也意味着，社交平台上的 Veo2 生成视频，要么时官方精挑细选出来的，要么是科技博主们一手评测出来的。
此外，这些放出来的视频时长均为 8 秒，分辨率也不超过 720p。
Veo2 的实际效果究竟如何？
我们或许可以从科技博主的测评视频中找到一些端倪。
-1-
Veo2 也逃不过翻车的命运吗？
目前，已经有不少国外科技博主拿到了 Veo2 试用「门票」，并在社交平台上放出来各种测评视频。
从这些测评视频中，我们发现Veo2 确实进步一大截，但也存在不少老生常谈的问题。
并未完全理解物理世界
X 博主 @shlomifruchter 是谷歌 Deepmind Veo 的联合负责人。
他用 Veo2 生成了一系列将水果扔进水里的视频。
比如，把几颗饱满的蓝莓丢进水中，无论是蓝莓入水后的浮沉，还是泛起的水泡、溅起的水花，乍一看都没毛病，但一细究就会发现杯子的水位并没有上升。
（视频来自 X 博主 @shlomifruchter）
再比如铁球垂直砸入装满硬币的盒子，最初的「爆炸性」运动生成得很真实，但在「飞」走很多硬币后，盒子里又冒出了比开始还多的硬币。
（视频来自谷歌 DeepMind 成员.@hhm）
DeepMind 研究科学家 @MattMcGill_评论称，在没有感官反馈的情况下，视频生成模型很难像人类一样准确地模拟和修正物理现象，从而导致生成的视频中出现许多物理错误。
这就像在缺乏感官基础的梦境中，人可以漂浮着下楼梯，物体之间可以随意转换，时间可以变得非线性等。
并未严格遵循提示词
风投公司 a16z 合伙人 Justine Moore 也测试了几个 Prompt。
其中一个Prompt：giraffe librarian in a sweater and jeans putting books back on a shelf.（穿着毛衣和牛仔裤的长颈鹿图书管理员把书放回书架上。）
对于这个长颈鹿图书管理员的穿着，Veo2 领悟得很到位，但它并没有把书放回书架。
Justine Moore 在回复中表示，有 25% 到 50% 的情况下模型能够成功地完成任务或给出正确的结果。它在处理复杂任务、运动量大的场景以及分布外推理方面的能力有了显著提升，但仍有改进空间。
谷歌 DeepMind 成员@hhm 输入 Prompt: Bear writing the solution to 2x-1=0. But only the solution!（熊在写解方程 2x - 1 = 0 的解，但只写解！）
（视频来自 X 博主 @hhm）
黑板上确实呈现出正确的答案，只不过小熊并没有在写字，它只是拿着一块黑板而已。
手部细节生成异常
在某些细节方面，Veo2 也经不起推敲。
比如这个女孩在云端跳舞的视频，眼尖的观众会发现画面惊现三条胳膊。
还有下面这个一群人围坐在一起吃火锅的片段，右侧穿红衣服的女生一度出现 4 根手指，左下角的男生手部则不断扭曲虚化。（Prompt：zoom out from hotpot to a group of friends eating.）
搞不定复杂的体育动作
对于 AI 来说，生成体操动作仍是一大难题。
这是因为 AI 需要能够捕捉到运动员在空中的旋转、翻转等动作，并且生成的视频要保持流畅和连贯。
同时运动员在翻转时可能出现身体部位的相互遮挡，这增加了模型生成视频时处理遮挡关系的难度。
下面这个 Veo2 生成的体操动作视频就是一个失败的案例：重力失灵、运动员腾空翻转时身体不正常扭曲等。
X 博主 @jerrod_lew 发布了一个 Veo2 生成的体育类视频合集，里面有多处诡异的情形。
网球拍击球的角度不正确，背后的力度看起来不够；跑步者的手突然反向运动，使得生成的动作不自然、不符合人体运动规律等。
（视频来自 X 博主 @jerrod_lew）
还有这个机器人和人类踢足球的视频，人类和机器人的手臂会互相穿过；在无人触碰的情况下，球会自己旋转移动等。
（Prompt:Soccer of the future, mixing people and robots. This is a fragment from a 2024 cinematic movie.）
-2-
国外科技博主横评
不少博主还发布了 Veo 2 和其他视频生成模型对比的视频。
Prompt: A pair of hands skillfully slicing a ripe tomato on a wooden cutting board.
提示词：双手熟练地在木菜板上切成熟的西红柿。
Prompt: An astronaut exploring an underwater alien shipwreck.
提示词：宇航员探索水下外星沉船。
Prompt：A bartender making an old-fashioned cocktail.
提示词：调酒师正在调制老式鸡尾酒。
Prompt: A video of a person sitting in a cafe with a coffee. After a bit, cuts to another viewpoint to reveal that a person nearby table is writing a letter to them.
提示词：一个人坐在咖啡馆喝咖啡的视频。过了一会儿，切到另一个视角，发现旁边桌子上的一个人正在给他们写信。

Tags:
深度学习

相关推荐

亿嘉和申请深度学习专利，能够适用于多种类型的旋钮状态识别
2024-01-07

纬德信息新注册《基于深度学习的人脸检测与识别系统V1.9》项目的软件著作权
2024-01-07

机器学习实现了脑机语言翻译，距离“意念交流”还有多远？
2024-01-05

AI十人谈⑤｜黄铁军：人工智能或与工业革命、电力革命相提并论
2024-01-04

年化收入突破16亿美元OpenAI继续疯狂变现
2024-01-04

免责声明

本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

热门文章

港股概念追踪|阿里巴巴(09988)最新业绩出炉AI表现亮眼关注AI技术效应溢出带来的投资机会(附概念股)

腾讯混元训练营开营，共创50多个大模型应用场景
2025-04-01 13:49

性能不等于销量NVIDIA最新AI芯片市场遇冷！客户偏爱成熟老产品
2025-04-01 18:23

朱啸虎看不上的赛道，腾讯投了150亿独角兽
2025-04-02 09:50

iOS18.4上线中文版苹果AI：但请不要期待Apple智能
2025-04-03 18:21

语音界Deepseek！百度最新跨模态端到端语音交互，成本最高降90%
2025-04-03 09:33

腾讯构建AI新矩阵：四大产品线合龙
2025-03-28 11:28

小米真AI智能眼镜下月发布：双芯架构、自带镜头
2025-03-31 18:25

DeepSeekV3模型重磅升级！腾讯/微美全息加速AI大模型“上车”多场景落地
2025-04-02 13:47

微软被曝关闭上海人工智能实验室：Logo被移除办公设备清空
2025-04-02 18:21