在这个数字化浪潮席卷全球的时代,虚拟形象已悄然成为我们日常生活中不可或缺的一部分。
然而比较常玩图生视频+对口型的用户都碰到过一个尴尬的问题,你的“人物”无论生成得多逼真,但她一张嘴就露馅了。
图源备注:图片由AI生成,图片授权服务商Midjourney
简单来说,就是声音和画面完全是割裂的,大家一听就知道这个声音不是她发出的,或者说,在那个场景下,人们听到的声音不该是这样的。
现在,这个尴尬的问题终于有人给解决了!
近日,一项名为LOOPY的创新技术横空出世,它不仅突破了传统虚拟形象动画的局限,更为数字世界注入了前所未有的活力。
LOOPY是由字节跳动和浙江大学的科研团队联合开发的一款基于音频驱动的视频扩散模型。与以往需要复杂空间信号辅助的技术不同,LOOPY仅需一帧图像和音频输入,就能让虚拟形象展现出令人惊艳的动态效果。
这项技术的核心在于其独特的长期运动信息捕捉模块,Loopy 支持各种视觉和音频风格,它就像一位经验丰富的编舞者,能够根据音频的节奏和情感,精准地”指挥”虚拟形象的每一个细微动作。例如叹息等非语音动作、情绪驱动的眉毛和眼睛运动以及自然的头部运动。
LOOPY的出现,无疑为虚拟世界打开了一扇新的大门。它不仅能够在游戏、电影制作和虚拟现实等领域大显身手,提升用户体验,还为创作者们提供了更广阔的创作平台。随着技术的不断进步,LOOPY的潜力正在被进一步挖掘,它很可能成为引领未来虚拟形象技术发展的新标杆。
项目地址:https://loopyavatar.github.io/
声明:本站资源来自会员发布以及互联网公开收集,不代表本站立场,仅限学习交流使用,请遵循相关法律法规,请在下载后24小时内删除。 如有侵权争议、不妥之处请联系本站删除处理! 请用户仔细辨认内容的真实性,避免上当受骗!