各位“冲浪达人”们,还记得那些年我们追过的表情包吗?从“地铁老人看手机”到“金馆长熊猫头”,它们不仅承包了我们的笑点,也成为了一种独特的网络文化符号。如今,短视频风靡全球,表情包也“与时俱进”,从静态图片进化成了动态视频,在各大平台上疯狂刷屏。

项目地址:https://songkey.github.io/hellomeme/

Runway Act one平替!HelloMeme让表情包视频制作更轻松!

但是,想要制作一个高质量的表情包视频可不是件容易的事。首先,表情包的特点就是表情夸张,动作幅度大,这对视频生成技术提出了不小的挑战。其次,很多现有的方法需要对整个模型进行参数优化,这不仅费时费力,还可能导致模型的泛化能力下降,难以兼容其他衍生模型,可谓是“牵一发而动全身”。

那么,有没有一种方法可以让我们轻松制作出既生动有趣又高保真的表情包视频呢?答案是:当然有!HelloMeme 来拯救你啦!

 

HelloMeme 就像是一个给大型模型“装插件”的工具,它能够在不改变原模型的基础上,让模型学会制作表情包视频这项“新技能”。 它的秘密武器就是优化了与二维特征图相关的注意力机制,从而增强了适配器的性能。简单来说,就是给模型戴上了一副“透视眼镜”,让它能够更准确地捕捉到表情和动作的细节。

HelloMeme 的工作原理也很有意思。它由三个小伙伴组成:HMReferenceNet、HMControlNet 和 HMDenoisingNet。

  • HMReferenceNet 就像是一个“阅片无数”的老师傅,它可以从参考图像中提取出高保真的特征。 这就好比是给模型提供了一份“表情包制作指南”,让它知道什么样的表情才够“沙雕”。
  • HMControlNet 则像是一个“动作捕捉大师”,它可以提取出头部姿态和面部表情信息。 这相当于给模型安装了一套“动作捕捉系统”,让它能够精准地捕捉到每一个细微的表情变化。
  • HMDenoisingNet 则是“视频剪辑师”,它负责将前面两个小伙伴提供的信息整合起来,生成最终的表情包视频。 它就像是一个经验丰富的剪辑师,可以将各种素材完美地融合在一起,打造出让人捧腹大笑的视频作品。

为了让这三个小伙伴能够更好地协同工作,HelloMeme 还使用了一种名为“空间编织注意力机制”的魔法。这个机制就像是在编织毛衣一样,将不同的特征信息交织在一起,从而保留了二维特征图中的结构信息。 这样一来,模型就不用重新学习这些基础知识,可以更加专注于表情包制作的“艺术创作”。

HelloMeme 最厉害的地方在于它在训练过程中完全保留了 SD1.5UNet 模型的原始参数,只优化了插入适配器的参数。** 这就好比是给模型“打了个补丁”,而不是对它进行“大手术”。** 这样做的好处是既保留了原模型的强大功能,又赋予了它新的能力,可谓是一举两得。

HelloMeme 在表情包视频生成任务上取得了非常棒的效果。它生成的视频不仅表情生动,动作流畅,而且画面清晰度高,简直可以媲美专业制作水平。 更重要的是,HelloMeme 还与 SD1.5衍生模型具有良好的兼容性,这意味着我们可以利用其他模型的优势来进一步提升表情包视频的质量。

当然,HelloMeme 还有很多可以改进的空间。例如,它生成的视频在帧连续性方面还略逊于一些基于 GAN 的方法,风格表达能力也有待增强。不过,HelloMeme 的研究团队已经表示,他们会继续努力改进模型,让它变得更加强大,更加“沙雕”。

相信在不久的将来,HelloMeme 会成为我们制作表情包视频的最佳利器,让我们可以尽情释放自己的“沙雕”脑洞,用表情包统治短视频时代!