近年来,生成式人工智能在图像生成领域取得了重大进步,催生了多种应用。然而,视频生成在可控性、视频长度、细节丰富性等各个方面仍面临相当大的挑战,阻碍了该技术的应用和普及。在这项工作中,我们提出了一个可控的视频生成框架,它可以生成任意长度的高质量视频,并带有任何运动引导。与以前的方法相比,我们的方法有几个亮点。首先,通过置信度感知姿势指导,可以实现时间平滑度,从而通过大规模训练数据增强模型稳健性。其次,基于位姿置信度的区域损失放大显著缓解了图像的失真;最后,针对生成长而流畅的视频,提出了一种渐进式潜在融合策略。通过这种方式,可以生成任意长度的视频,并且资源消耗可以接受。通过广泛的实验和用户研究,我们在多个方面都比以前的方法有了显着改进。
声明:本站资源来自会员发布以及互联网公开收集,不代表本站立场,仅限学习交流使用,请遵循相关法律法规,请在下载后24小时内删除。 如有侵权争议、不妥之处请联系本站删除处理! 请用户仔细辨认内容的真实性,避免上当受骗!