Sora新版本发布，专家：有进阶，但与国内大模型可灵相比，没有质的飞跃

首页 > AI资讯 > 最新资讯 > Sora新版本发布，专家：有进阶，但与国内大模型可灵相比，没有质的飞跃

Sora新版本发布，专家：有进阶，但与国内大模型可灵相比，没有质的飞跃

上观新闻 2024-12-11

　　当地时间12月9日，美国OpenAI公司正式发布了最新版本的视频生成大模型Sora-Turbo，它能够根据文本、图像或视频输入生成新的视频内容，这是继今年2月推出首个版本以来的一次重要迭代。

　　“相比第一个版本，Sora新版本显著提升了实用性与技术成熟度。但说实话，第一个版本出来时大家都激动不已，这次新版本拖的时间太长，其他公司都追赶得差不多了，业内人士都没什么感觉了。特别是与国内的视频生成大模型‘可灵’相比，新版本Sora生成的视频也并没有展示出质的飞跃。”深耕计算机视觉领域的上海交通大学长聘教轨副教授谢伟迪，接受了解放日报·上观新闻记者专访。

【一款高完成度的AI产品】

　　相比旧版本，Sora新版本有哪些“进阶”？

　　“早期的Sora更像是一个学术雏形，它通过扩展数据量和模型规模，展现了视频生成领域所能迸发的非凡潜力，也为当时的生成模型研究指明了发展方向。尽管当时未产出可供公众使用的成品模型，Sora的探索已有力地证明了数据与模型规模提升所带来的惊人效果。”谢伟迪认为，Sora-Turbo在继承早期版本核心框架基础上，显著提升了实用性与技术成熟度，针对模型架构和生成能力进行了系统性优化，以下是其关键进展——

　　更高的生成质量。Sora-Turbo能够生成分辨率高达1080p的视频，并支持生成最长可达20秒的动态内容。这种优化不仅提升了生成视频的视觉细腻度，还显著增强了场景的连贯性与动态表现。

　　多模态输入支持。Sora-Turbo进一步扩展了输入形式，支持文本、图像以及现有视频的多模态输入。例如，用户可以上传一张静态图像为其生成动画，或对已有视频进行扩展以补全缺失帧。这种灵活性为创作者提供了更多可能性，显著拓宽了模型的应用场景。

　　模型架构优化。通过引入更高效的架构设计，并结合OpenAI公司的多模态处理技术，Sora-Turbo在理解和生成复杂内容方面表现得更加精准。与此同时，架构优化还提高了模型的计算效率，缩短了生成过程中的响应时间。

　　高完成度的产品化。除了视频生成功能，Sora-Turbo还提供了一系列实用工具，如视频元素编辑、将静态图像扩展为动态视频，以及时间轴上的剪辑与创作功能。与早期的学术雏形相比，Sora-Turbo已发展为一款高完成度的AI产品，显著提升了其在实际工作和生活场景中的应用价值。

【理解和模拟物理规律，仍有改进空间】

　　在当前技术竞争中，国内外涌现了不少视频生成模型，如可灵（Kling）、海螺（Hailuo AI）、Gen-3和 Pika等。其中，作为快手AI团队自研的视频生成大模型，今年6月正式上线的可灵表现抢眼。它可支持生成分辨率高达1080P的较长视频，能模拟物理世界特性，会运镜，具备强大的概念组合能力和想象力。

　　与它们相比，Sora-Turbo从细节到体验有何优劣？

　　“虽然Sora-Turbo在生成复杂场景和多主体互动视频时表现不错，能够呈现较为真实的动态效果和细腻的画面细节。然而，其在对物理规律的深入理解与物理特性的精确模拟上仍有提升空间。”谢伟迪说，例如，在生成物体运动或光影变化等场景时，其结果可能不够符合现实物理特性。

　　Sora-Turbo的架构优化提升了生成质量，同时逐步改善了计算效率。“然而，与像Gen-3这样的轻量化模型相比，其在硬件适配性和生成速度方面还有进一步提升的空间，以更好地满足广泛用户的需求。”

　　OpenAI公司为Sora-Turbo配备了全面的内容监管机制，包括内置的内容过滤系统和社区监督功能，以减少生成不当或误导性内容的风险。与部分更强调速度的模型相比，Sora-Turbo更加注重生成内容的合规性和道德规范，尤其在需要严格监管的应用场景中具有优势。

　　“需要特别指出的是，Sora目前没有向我们开放，无法进行规模化生成、测试，不像‘可灵’，学术界已经测试了很多轮。后续如果能在更多维度上做系统性测试，可以观察到更多。”谢伟迪说。

【平衡技术创新与隐私保护】

　　视频生成大模型对我们的生活有何潜在影响？

　　“它们不仅大幅提升了视频创作效率，还将为游戏的开发、玩耍和体验方式带来创新，为讲故事、互动和沉浸式体验带来新的可能性。例如，根据用户叙述生成定制的角色、动作、场景。”谢伟迪说。

　　对于企业和内容创作者而言，视频制作往往是一项繁琐且耗时的任务。借助视频生成大模型，用户只需提供简短的文本描述，即可自动生成高质量视频。“这不仅节省了大量时间，也大幅降低了对专业技能的要求，即使没有视频制作经验的用户也能轻松创建专业级内容。视频生成大模型的广泛应用有望改变广告营销、产品推广和教育辅导等多个行业的内容创作流程，推动生产力的升级。”

　　在娱乐领域，视频生成大模型同样潜力巨大，尤其在短视频的创作与传播方面。这使得专业拍摄设备和复杂的后期制作技术不再是必需品。“这种便利性让更多用户能够快速创作和分享创意，进一步推动短视频文化的发展，或将催生更多创新形式和互动体验。”

　　然而，视频生成大模型的强大能力也伴随着一定的安全与隐私风险。

　　首先，其生成高度逼真的视频内容的能力，可能被不法分子用于制造虚假新闻、伪造言论或不实事件，从而对公众信任和社会秩序造成潜在威胁。

　　此外，作为依赖海量数据与计算的AI工具，视频生成大模型可能涉及对用户文本描述、生成视频内容和使用行为等数据的收集。如果这些数据未被妥善保护，用户隐私可能面临泄露风险。

　　“平衡技术创新与隐私保护，是视频生成大模型未来发展的关键所在。”谢伟迪建议，需建立严格的数据保护措施、透明的使用政策以及完善的内容监管机制，这不仅是对用户信任的维护，更是推动技术普及与创新的重要基础。

（文章来源：上观新闻）

Tags:

计算机视觉模型专家

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

Sora新版本发布，专家：有进阶，但与国内大模型可灵相比，没有质的飞跃

大模型拯救AI眼镜，还是AI眼镜拯救大模型？

信银理财李珏峰：人工智能赋能资管行业积极探索大模型应用

从拼技术到迈向商业化中国AI大模型开启“竞速跑”

Sora新版本发布，专家：有进阶，但与国内大模型可灵相比，没有质的飞跃

大模型已进入应用阶段专家：算法脆弱性等问题仍待解

热门文章

GPT-4.5发布了，最突出的是“情商”

布局全产业链发展，广东AI与机器人领域集中上新

【早报】李强同欧盟委员会主席冯德莱恩通电话；A股再掀增持回购小高潮

机器人概念震荡回调，机器人产业ETF（159551）跌超3.3%，连续5日净流入超8000万元

美股最新评级|中信证券维持唯品会买入评级给予美光买入评级

生益电子：服务器销售占比增至近五成智能算力中心高多层HDI项目拟Q4试生产|直击业绩会

（经济观察）DeepSeek点燃A股人工智能“投资热”

李飞飞实验室2025AI报告出炉：中美AI模型差距近乎持平

央视主持王冰冰穿蓝色长裙惊呼：AI算法治好了我的选择困难症！