近年来,生成式人工智能在图像生成领域取得了重大进步,催生了多种应用。然而,视频生成在可控性、视频长度、细节丰富性等各个方面仍面临相当大的挑战,阻碍了该技术的应用和普及。在这项工作中,我们提出了一个可控的视频生成框架,它可以生成任意长度的高质量视频,并带有任何运动引导。与以前的方法相比,我们的方法有几个亮点。首先,通过置信度感知姿势指导,可以实现时间平滑度,从而通过大规模训练数据增强模型稳健性。其次,基于位姿置信度的区域损失放大显著缓解了图像的失真;最后,针对生成长而流畅的视频,提出了一种渐进式潜在融合策略。通过这种方式,可以生成任意长度的视频,并且资源消耗可以接受。通过广泛的实验和用户研究,我们在多个方面都比以前的方法有了显着改进。

AI图片生成指定动作视频-AI视频