在这个数字化浪潮席卷全球的时代,虚拟形象已悄然成为我们日常生活中不可或缺的一部分。

然而比较常玩图生视频+对口型的用户都碰到过一个尴尬的问题,你的“人物”无论生成得多逼真,但她一张嘴就露馅了。

字节新项目Loopy让数字人声音完美匹配画面

图源备注:图片由AI生成,图片授权服务商Midjourney

简单来说,就是声音和画面完全是割裂的,大家一听就知道这个声音不是她发出的,或者说,在那个场景下,人们听到的声音不该是这样的。

现在,这个尴尬的问题终于有人给解决了!

近日,一项名为LOOPY的创新技术横空出世,它不仅突破了传统虚拟形象动画的局限,更为数字世界注入了前所未有的活力。

LOOPY是由字节跳动和浙江大学的科研团队联合开发的一款基于音频驱动的视频扩散模型。与以往需要复杂空间信号辅助的技术不同,LOOPY仅需一帧图像和音频输入,就能让虚拟形象展现出令人惊艳的动态效果。

字节新项目Loopy让数字人声音完美匹配画面

这项技术的核心在于其独特的长期运动信息捕捉模块,Loopy 支持各种视觉和音频风格,它就像一位经验丰富的编舞者,能够根据音频的节奏和情感,精准地”指挥”虚拟形象的每一个细微动作。例如叹息等非语音动作、情绪驱动的眉毛和眼睛运动以及自然的头部运动。

 

LOOPY的出现,无疑为虚拟世界打开了一扇新的大门。它不仅能够在游戏、电影制作和虚拟现实等领域大显身手,提升用户体验,还为创作者们提供了更广阔的创作平台。随着技术的不断进步,LOOPY的潜力正在被进一步挖掘,它很可能成为引领未来虚拟形象技术发展的新标杆。

项目地址:https://loopyavatar.github.io/