您现在的位置是：主页 > 行业 > 市场 >

腾讯图生视频全面开源，更懂物理规律，一手实测来了

来源：量子位 2025-03-06 22:32:18 阅读：

提要从视频 AI 诞生至今，生成符合现实物理规律的视频堪称行业难题。...

就在刚刚，腾讯版 Sora 补齐了又一重要拼图——图生视频。

而且还是熟悉的配方，和去年 12 月发布的文生视频模型 HunyuanVideo 一样，发布即开源。

那么，此次上新的「图生视频」到底有多强呢？

有网友直接用它制作了一部电影：

可以看到，新功能在画质、物体一致性等方面有了很大提升。

目前该功能已上线腾讯混元 AI 视频，人人都可免费体验（有次数限制）。

话不多说，量子位一手实测走起 ~

实测腾讯混元「图生视频」

有一说一，图生视频这项功能本身在视频 AI 领域已不新奇，但难的是生成效果好。

而在各位玩家狂卷生成效果的途中，一些老大难问题逐渐 " 露面 "，并成为检验和驱动视频 AI 进化的法宝。

所以，为了直观展示腾讯版 Sora 的「图生视频」能力，我们直接从这些难题入手。

难题 1：是否符合现实物理规律

众所周知，从视频 AI 诞生至今，生成符合现实物理规律的视频堪称行业难题。

一不小心就各种手脚满天飞，让人直呼恐怖：

所以这第一关，我们直接来个大招——让腾讯混元视频 AI 还原运动员跳水。

而且为了整活儿，选取的原图就有 " 炸鱼 " 的倾向了 ( doge）：

（右侧为 AI 生成的原图和提示词，选取 2K 视频）

最终效果 be like：

首先，为了保证画质，我们一开始就特意选了「2K 视频」（默认为高品质），并选择更通用的混元图生 1.0（另一个针对人像优化）。

从结果可以看到，整体画面还是比较高清的，随手一截都有点像体育频道报道。

质量上，相比早期的 " 手脚乱飞 " 也明显有很大进步，一眼看去没有明显错误。

然鹅，如果要拿放大镜来看，一些细节还是经不起推敲。

比如运动员左手的大小比例在下面这个瞬间有点问题，手掌明显过宽；另外手势在变换的过程中，抠图感明显，能从这里看出视频由 AI 生成。

所以，要想实现 100% 还原真实物理规律，大噶还得加油啊 ~

BTW，虽然生成的视频目前只有 5 秒，但不难想见这位小哥落水时即将炸鱼了。

难题 2：能否 " 无中生有 "

Okk，难题继续。

为了考验视频生成 AI 的可控性，我们来看这样一张原图：（草原上没有一只动物）

输入 prompt，" 图中出现了一匹马 "，最终结果如下：

可以看到，视频中确实出现了一匹白色骏马在草原上慢慢行走。

除此之外，我们继续搬出大家心心念念的一个功能来挑战——在画面中生成文字（中文或英文）。

个人多次实测后发现，目前暂时无法在视频中凭空生成文字（大家有成功案例可以在评论区补充）。

不过也有一种间接方法能够实现：先在图片中生成文字（可以用腾讯豆包 AI 的画图功能），再将图片转换成动态视频。

嗯，也是给量子位打上了赛博广告（doge）~

所以，在让视频 " 无中生有 " 这方面，除了添加文字不可控，其他元素已经可以轻松拿捏了。

难题 3：能否准确遵循指令

接下来，图片搭配文字提示词，也能用来考察视频生成 AI 是否理解用户意图了。

腾讯混元视频 AI，在上传图片后，可以通过正面（想要哪些画面）和反面（不想要哪些）提示词来设计整个画面。

这里我们又拿腾讯混元视频的" 独家艺能 "来测试。早在文字生成视频的功能发布后，他们就主推了在画面主角保持不变的情况下自动切镜头的这项功能，当时号称这是业界大部分模型所不具备的能力。

所以，我们这次的 prompt 如下：

一位外国美女穿着汉服，头发飘扬，背景是长城，然后镜头切换到正面特写。

最终生成结果如下：

乍看之下，镜头从侧脸切换到正脸衔接挺自然，连发丝都始终在空中飘扬。

但是一抠细节，后来的黄色发夹有点突兀了，所以在整体一致性上仍有完善空间。

难题 4：能否保证连贯一致性

当然，光是准确还原指令还不够，更重要的是要让所有元素自然铺开。

换句话说，还要考察图片转化成视频后的动作、场景过渡是否自然流畅，有无明显的卡顿、跳跃或不连贯的情况。

嗯，依旧上难度——镜子题材下的运动一致性考验。

穿着白床单的幽灵面对着镜子。镜子中可以看到幽灵的倒影。幽灵位于布满灰尘的阁楼中，阁楼里有老旧的横梁和被布料遮盖的家具。阁楼的场景映照在镜子中。幽灵在镜子前跳舞。电影氛围，电影打光。

最终效果如下：

一般来说，镜子题材可以用来考验模型对光影的理解，以及镜子内外主体运动是否能保持一致。

而上面这个生成效果着实惊艳，当身披白床单的幽灵 " 手舞足蹈 " 时，镜子里的动作非常一致，而且连地上的光影变换也非常符合物理规律。

整体看起来相当丝滑 ~

Okk，几个堪称最难的测试到此告一段落。实测下来，腾讯混元的「图生视频」新功能在这些最难挑战上有了很大进步，但离 100% 符合物理规律和完全一致性仍有一段距离。

最后附上来自官方的写 prompt 小 tips：

用法 1：提示词 = 主体 + 动作（相对简短的表述效果更优）

主体：视频的主要表现对象要与与输入图片一致，可以为人、动物、植物、物品等，简单描述即可，比如一个女孩、一个熊猫等。

动作：对主体动作或状态的描述，用词建议简单且清晰具体，最好有动态感，比如戴眼镜 -> 用手戴上眼镜，喝水 -> 用手举起杯子喝水。

用法 2：提示词 = 主体 + 动作 + 运镜方式

运镜方式：镜头的运动方式，比如静止镜头、镜头平移向右，镜头缩放等。

网友疯狂试玩 ing

与此同时，网友们的第一波鲜测也出炉了：

感兴趣的童鞋可以玩起来了 ~

在线免费体验：

https://video.hunyuan.tencent.com/

Github:

https://github.com/Tencent/HunyuanVideo-I2V

Huggingface：

https://huggingface.co/tencent/HunyuanVideo-I2V

参考链接：

[ 1 ] https://x.com/TXhunyuan/status/1897558826519556325

[ 2 ] https://x.com/iamhk/status/1897557803755253850

Tags：图生视频实测规律开源腾讯物理

上一篇：接广告、拍长剧……微短剧头部演员“上桌”了

下一篇：「唐三两打酒铺」完成近千万元天使轮融资，社区与极致性价比的新碰撞

随机图文

点击排行

一座城捧红一款车

本栏推荐

赛博时代，谁还在登报纸中缝广告？

标签云

您现在的位置是：主页 > 行业 > 市场 >

腾讯图生视频全面开源，更懂物理规律，一手实测来了

相关文章

随机图文

点击排行

本栏推荐

标签云

猜你喜欢