AI一键生成“电影感”视频人人都能当“导演”

首页 > AI资讯 > 最新资讯 > AI一键生成“电影感”视频人人都能当“导演”

AI一键生成“电影感”视频人人都能当“导演”

南方都市报 2024-12-05

　　腾讯旗下混元大模型，正在“招聘”导演。12月3日，在混元大模型媒体沟通会上，腾讯公布了旗下模型最新进展：正式上线视频生成能力。现场生成视频显示，无论是在水里冲浪，还是在阁楼里跳舞，只要你的想象力“够用”，输入精确提示词后都能一键生成。另外在人物展示方面，混元视频大模型不仅能生成人物中景还能展示人物特写，镜头转换的过程丝滑又颇具电影质感。

　　今年以来，“等我老了依靠小猫来养老”“老照片古人物动起来”等用AI大模型制作的上述视频走红网络，视频领域俨然已成AI技术落地的首个桥头堡。在沟通会上腾讯还宣布开源该视频生成大模型，参数量130亿，是当前最大的视频开源模型。目前，用户可在腾讯元宝APP的“AI视频”板块申请试用。

　　超写实电影感视频，AI一键生成了

　　沟通会上，腾讯混元多模态生成技术负责人凯撒透露，用户只需输入一段描述，即可生成视频。目前的生成视频支持中英文双语输入、多种视频尺寸以及多种视频清晰度。

　　下面来展示一些用混元最新视频大模型生成的实验案例，比如输入提示词：“超大海浪，冲浪者在浪花上起跳，完成空中转体。摄影机从海浪内部穿越而出，捕捉阳光透过海水的瞬间。水花在空中形成完美弧线，冲浪板划过水面留下轨迹。最后定格在冲浪者穿越水帘的完美瞬间。”

　　视频生成的效果可以看到，水和人在视频演进的过程中都分离呈现得很好，镜头从冲浪者到水花再到冲浪者出水，整体非常流畅。

　　再举一个颇具西方电影感的例子，输入提示词“穿着白床单的幽灵面对着镜子。镜子中可以看到幽灵的倒影。幽灵位于布满灰尘的阁楼中，阁楼里有老旧的横梁和被布料遮盖的家具。阁楼的场景映照在镜子中。”

　　生成的视频中幽灵在镜子前跳舞，视频有前景也有后景，幽灵在床单中跳舞的动作可以通过床单的褶皱展示，电影氛围和电影感打光都做到了。

　　有读者可能会想，上面的例子都比较现代化，如果想要生成古风的人物，还有效吗？输入提示词“一位中国美女穿着汉服，头发飘扬，背景是伦敦，然后镜头切换到特写镜头”。

　　从生成的视频可以看到，混元真是贯通中西！从中景到大特写，虽然经历了一个电影语境上的“大跳切”，但是一点也不突兀，中景古风美女衣袂飘飘，切到特写时美女头上发带、钗环甚至连头发丝都在随风飘动，另外混元把人物脸上的微小瑕疵也做出来了，很有真实感。

　　除了单主体镜头，混元视频大模型在多主体上也做得很好。输入提示词“特写镜头拍摄的是一位60多岁、留着胡须的灰发男子，他坐在巴黎的一家咖啡馆里，沉思着宇宙的历史，他的眼睛聚焦在画外走动的人们身上，而他自己则基本一动不动地坐着，他身穿羊毛大衣西装外套，内衬系扣衬衫，戴着棕色贝雷帽和眼镜，看上去很有教授风范，片尾他露出一丝微妙的闭嘴微笑，仿佛找到了生命之谜的答案，灯光非常具有电影感，金色的灯光，背景是巴黎的街道和城市，景深，35毫米电影胶片。”

　　这段提示词中主体除了“灰发男子”，还有“画外走动的人们”“巴黎的街道和城市”。生成的视频可以看到，从特写切到中景，男子脸上的光、表情细节，以及背景中走动的人、城市景色都表现出来了，背景与前景相互结合，也做到了所谓的“电影感”。

　　结合以上案例不难看出，目前腾讯混元生成视频大模型可以实现超写实画质、生成高度符合提示词的视频画面，画面流畅不易变形。

　　比如，在冲浪、跳舞等大幅度运动画面的生成中，腾讯混元可以生成非常流畅、合理的运动镜头，物体不易出现变形；光影反射基本符合物理规律，在镜面或者照镜子场景中，可以做到镜面内外动作一致。值得一提的是，混元目前已实现了在画面主角保持不变的情况下自动切换镜头，这是业界大部分模型所不具备的能力。

　　同时，在与国内外多个顶尖模型的评测对比显示，混元视频生成模型在文本视频一致性、运动质量和画面质量多个维度效果领先，在人物、人造场所等场景下表现尤为出色。

文生视频评测结果

　　全面开源，上元宝可免费使用

　　目前该模型已上线腾讯元宝APP，用户可在AI应用中的“AI视频”板块申请试用。企业客户通过腾讯云提供服务接入，目前API同步开放内测申请。

通过腾讯元宝APP-AI应用-AI视频即可使用该功能

　　同时，腾讯方面还宣布，此次发布的视频生成大模型已在Hugging Face平台及Github上发布，包含模型权重、推理代码、模型算法等完整模型，全面开源，可供企业与个人开发者免费使用和开发生态插件。基于腾讯混元的开源模型，开发者及企业无需从头训练，即可直接用于推理，并可基于腾讯混元系列打造专属应用及服务，能够节约大量人力及算力，加速行业创新步伐。

　　从年初以来，腾讯混元系列模型的开源速度不断加快。就在11月初，腾讯召开混元大模型媒体沟通会，宣布最新的MoE模型“混元Large”以及混元3D生成大模型“ Hunyuan3D-1.0”正式开源。

　　今年以来，“等我老了依靠小猫来养老”“老照片古人物动起来”等用AI大模型制作的上述视频走红网络。视频领域俨然已成AI技术落地的首个桥头堡。不少AI视频出圈的背后，是“中国版Sora”的快速崛起。今年春节期间，Sora的横空出世投下了一枚炸弹，瞬间让卷“文生文”“文生图”的大模型厂商开启了“视频ChatGPT时代”。不过，Sora一鸣惊人后却迟迟未上线，被外界称为“期货”。

　　在这期间，多家中国厂商抢先入场，推出了视频大模型产品，包括字节、快手、阿里云、昆仑万维、美图在内的互联网厂商，以及Minimax、智谱、爱诗科技与生数科技等大模型初创等厂商都在快速跟进。

　　腾讯混元多模态生成技术负责人凯撒在沟通会后接受采访时表示，目前不少业界产品和模型都有先发优势，但团队在研发时发现，现在视频生成特别是文生视频领域成熟度远没有大家想象的那么高，失败率仍很高。“在我们内部评估，这个技术程度还没有到大规模商业化的程度，还在技术打磨阶段。我们选择在这个阶段推出它，同时选择对外开源，希望跟社区一起把技术早日推向像AI图像生成这样真正可用的状态。”

（文章来源：南方都市报）

Tags:

大模型导演电影

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

AI一键生成“电影感”视频人人都能当“导演”

国产大模型“紫东太初”3.0发布，垂类应用再扩容

联影智能@CCR，多模态医疗大模型牵引医疗场景全新蝶变

慧博云通(301316.SZ)：公司暂不涉及AI大模型的研发

1行代码改进大模型训练，Llama训练速度提升至1.47倍，全华人团队出品

Anthropic开源MCP：大模型接入数据有了“统一插头”，Agent平台慌了？

热门文章

联想AIPC全家桶接入DeepSeek，本地跑70B大模型，离线也能写总结

马克龙敦促欧盟企业暂停在美投资，称不排除使用反胁迫工具应对关税

【VIP机会日报】机器人概念再度走强栏目追踪行业动态提及产业相关公司强势涨停

AI剧本风控项目启动天使轮融资

AI图像生成平台「LiblibAI」获数亿元融资

紫光国微：在特种集成电路业务方面强化业务能力、提升发展质量

联芸科技：我司已量产的商用产品暂未应用于无人驾驶

L3上路倒计时？工信部加快推进智能网联车规划产业基建+商业化迎来关键节点

资讯出海，扬帆起航正当时！