Sora新版本发布,专家:有进阶,但与国内大模型可灵相比,没有质的飞跃
当地时间12月9日,美国OpenAI公司正式发布了最新版本的视频生成大模型Sora-Turbo,它能够根据文本、图像或视频输入生成新的视频内容,这是继今年2月推出首个版本以来的一次重要迭代。
“相比第一个版本,Sora新版本显著提升了实用性与技术成熟度。但说实话,第一个版本出来时大家都激动不已,这次新版本拖的时间太长,其他公司都追赶得差不多了,业内人士都没什么感觉了。特别是与国内的视频生成大模型‘可灵’相比,新版本Sora生成的视频也并没有展示出质的飞跃。”深耕计算机视觉领域的上海交通大学长聘教轨副教授谢伟迪,接受了解放日报·上观新闻记者专访。
【一款高完成度的AI产品】
相比旧版本,Sora新版本有哪些“进阶”?
“早期的Sora更像是一个学术雏形,它通过扩展数据量和模型规模,展现了视频生成领域所能迸发的非凡潜力,也为当时的生成模型研究指明了发展方向。尽管当时未产出可供公众使用的成品模型,Sora的探索已有力地证明了数据与模型规模提升所带来的惊人效果。”谢伟迪认为,Sora-Turbo在继承早期版本核心框架基础上,显著提升了实用性与技术成熟度,针对模型架构和生成能力进行了系统性优化,以下是其关键进展——
更高的生成质量。Sora-Turbo能够生成分辨率高达1080p的视频,并支持生成最长可达20秒的动态内容。这种优化不仅提升了生成视频的视觉细腻度,还显著增强了场景的连贯性与动态表现。
多模态输入支持。Sora-Turbo进一步扩展了输入形式,支持文本、图像以及现有视频的多模态输入。例如,用户可以上传一张静态图像为其生成动画,或对已有视频进行扩展以补全缺失帧。这种灵活性为创作者提供了更多可能性,显著拓宽了模型的应用场景。
模型架构优化。通过引入更高效的架构设计,并结合OpenAI公司的多模态处理技术,Sora-Turbo在理解和生成复杂内容方面表现得更加精准。与此同时,架构优化还提高了模型的计算效率,缩短了生成过程中的响应时间。
高完成度的产品化。除了视频生成功能,Sora-Turbo还提供了一系列实用工具,如视频元素编辑、将静态图像扩展为动态视频,以及时间轴上的剪辑与创作功能。与早期的学术雏形相比,Sora-Turbo已发展为一款高完成度的AI产品,显著提升了其在实际工作和生活场景中的应用价值。
【理解和模拟物理规律,仍有改进空间】
在当前技术竞争中,国内外涌现了不少视频生成模型,如可灵(Kling)、海螺(Hailuo AI)、Gen-3和 Pika等。其中,作为快手AI团队自研的视频生成大模型,今年6月正式上线的可灵表现抢眼。它可支持生成分辨率高达1080P的较长视频,能模拟物理世界特性,会运镜,具备强大的概念组合能力和想象力。
与它们相比,Sora-Turbo从细节到体验有何优劣?
“虽然Sora-Turbo在生成复杂场景和多主体互动视频时表现不错,能够呈现较为真实的动态效果和细腻的画面细节。然而,其在对物理规律的深入理解与物理特性的精确模拟上仍有提升空间。”谢伟迪说,例如,在生成物体运动或光影变化等场景时,其结果可能不够符合现实物理特性。
Sora-Turbo的架构优化提升了生成质量,同时逐步改善了计算效率。“然而,与像Gen-3这样的轻量化模型相比,其在硬件适配性和生成速度方面还有进一步提升的空间,以更好地满足广泛用户的需求。”
OpenAI公司为Sora-Turbo配备了全面的内容监管机制,包括内置的内容过滤系统和社区监督功能,以减少生成不当或误导性内容的风险。与部分更强调速度的模型相比,Sora-Turbo更加注重生成内容的合规性和道德规范,尤其在需要严格监管的应用场景中具有优势。
“需要特别指出的是,Sora目前没有向我们开放,无法进行规模化生成、测试,不像‘可灵’,学术界已经测试了很多轮。后续如果能在更多维度上做系统性测试,可以观察到更多。”谢伟迪说。
【平衡技术创新与隐私保护】
视频生成大模型对我们的生活有何潜在影响?
“它们不仅大幅提升了视频创作效率,还将为游戏的开发、玩耍和体验方式带来创新,为讲故事、互动和沉浸式体验带来新的可能性。例如,根据用户叙述生成定制的角色、动作、场景。”谢伟迪说。
对于企业和内容创作者而言,视频制作往往是一项繁琐且耗时的任务。借助视频生成大模型,用户只需提供简短的文本描述,即可自动生成高质量视频。“这不仅节省了大量时间,也大幅降低了对专业技能的要求,即使没有视频制作经验的用户也能轻松创建专业级内容。视频生成大模型的广泛应用有望改变广告营销、产品推广和教育辅导等多个行业的内容创作流程,推动生产力的升级。”
在娱乐领域,视频生成大模型同样潜力巨大,尤其在短视频的创作与传播方面。这使得专业拍摄设备和复杂的后期制作技术不再是必需品。“这种便利性让更多用户能够快速创作和分享创意,进一步推动短视频文化的发展,或将催生更多创新形式和互动体验。”
然而,视频生成大模型的强大能力也伴随着一定的安全与隐私风险。
首先,其生成高度逼真的视频内容的能力,可能被不法分子用于制造虚假新闻、伪造言论或不实事件,从而对公众信任和社会秩序造成潜在威胁。
此外,作为依赖海量数据与计算的AI工具,视频生成大模型可能涉及对用户文本描述、生成视频内容和使用行为等数据的收集。如果这些数据未被妥善保护,用户隐私可能面临泄露风险。
“平衡技术创新与隐私保护,是视频生成大模型未来发展的关键所在。”谢伟迪建议,需建立严格的数据保护措施、透明的使用政策以及完善的内容监管机制,这不仅是对用户信任的维护,更是推动技术普及与创新的重要基础。
(文章来源:上观新闻)
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。