谷歌发布超强AI视频编辑工具！施展魔法的VLOGGER，音频加图片就搞定唇形和手势，还把表情编辑玩出花了！

WAP站长网

2025年6月24日

字数：843，阅读约3分钟

全屏显示

谷歌发布超强AI视频编辑工具！施展魔法的VLOGGER，音频加图片就搞定唇形和手势，还把表情编辑玩出花了！

SEO教程

正在检查是否收录...

出品 | 51CTO技术栈（微信号：blog51cto）

编译丨伊风

视频生成模型的脚步永不停歇！

图片

4月2日，谷歌刚刚发布了强到可怕的AI视频编辑工具VLOGGER。VLOGGER就像收集了很多视频生成领域的前沿AI技能，而打造出的一款百宝箱。其中也有一些亮点细节，例如通过AI编辑，将让画面中讲话者的闭眼、闭嘴、甚至“wink”。

这意味着视频编辑在细节的深入上又精进了一个level！

VLOGGER的工作原理即输入音频和图像，由“读唇器”根据音频预测说话者的动作，而“动画器”根据说话者的照片和动作细节创建视频帧。

图片

要知道VLOGGER这个百宝箱里都装了什么，可以跟随以下示例来看！

1.VLOGGER的多面能力

基础的图生视频功能

将图片驱动为一段视频。

图片

多语种唇形切换

输入一种语言的视频和另一种语言的音频，它能根据新输入的语言调整说话者的嘴部动作！

顺便一提，OpenAI的VOICE ENGINE也在关注多语种的能力。可以根据一段音频生成一段保留原声音色及口音的外语视频，如果这些能力都能打通，那么音视频内容的出海将会畅通无阻。

图片

表情细节编辑

VLOGGER使得表情编辑更进一步，例如单独控制一只眼睛等。通过使用工具，将生成新的面部表情和动作，用以提升视频的创意。

图片

2.最终效果，进步了但未完全消除“恐怖谷”

图片

毫无疑问VLOGGER的视频留下了令人印象深刻的亮点。如讲话时自然的身体姿势，增加手部运动以在一定程度上提升了视频的真实感。然而，生成的表情和动作比起真实视频还存在机械感重、不流畅的问题，因此会存在一定的“恐怖谷”效应。

参考链接：https://twitter.com/hey_madni/status/1774832882902864327

想了解更多AIGC的内容，请访问：

51CTO AI.x社区

cto视频编辑视频生成多语种技术栈面部表情表情编辑视频内容视频编辑工具aigc真实感ai视频ai视频编辑openai编辑工具ai编辑音频生成生成模型twitter音视频

本文作者：WAP站长网
本文链接： https://wapzz.net/post-12620.html
版权声明：本博客所有文章除特别声明外，均默认采用 CC BY-NC-SA 4.0 许可协议。

本站部分内容来源于网络转载，仅供学习交流使用。如涉及版权问题，请及时联系我们，我们将第一时间处理。

文章很赞！支持一下吧还没有人为TA充电

为TA充电

还没有人为TA充电

支付宝扫一扫
微信扫一扫

感谢支持

文章很赞！支持一下吧

关于作者

WAP站长网

2.8W+

WAP站长官方

最近签到
签到排行

WAP站长网
1个月前
+20
kbx991
1个月前
+30
vPNpL7l4
1个月前
+10

WAP站长网
WAP站长官方
57
kbx991
内卷太严重，已躺平...
6
Cr8M6e32
内卷太严重，已躺平...
5

日均播放量超过25亿，为什么“最流行”的美妆趋势诞生于抖音？

TOP3

TOP4

TOP5

标签云

麒麟9020A性能 1

华为Mate70优享版 1

性能提升 1

麒麟9020A 1

Mate70优享版 1

K90 1

Gen5芯片 1

K90系列 1

X9系列 1

荣耀Magic8系列 1

X300系列 1

小米员工处分 1

王腾被辞退 1

泄露公司机密 1

小米员工违规 1

王腾账号注销 1

YU7防护措施 1

小米YU7电池安全 1

防护措施 1

上市咨询 1

电池安全 1

合约机 1

中国联通 1

小米汽车技术解释 1

小米超强钢项目 1

东北大学 1

项目名称 1

超强钢 1

淘宝团购 1

阿里流量入口 1

团购业务 1

跨界月饼 1

月饼邪修 1

创意月饼 1

年轻人消费 1

中秋礼盒 1

月饼测评 1

抖音鸡排哥 1

鸡排哥语录 1

抖音爆火 1

幽默互动 1

网络走红 1

鸡排哥 1

AI稀疏注意力 1

V3.2 1

API成本 1

稀疏注意力 1

照片在线下载 1

10G文件传输 1

在线预览 1