字节开源嘴型同步模型LatentSync，实现超真实口型同步

AI视频工具

字节跳动发布了名为 LatentSync 的新型口型同步框架，旨在利用音频条件潜在扩散模型实现更精确的口型同步。该框架基于Stable Diffusion，针对时间一致性做了优化。与以往的基于像素空间扩散或两阶段生成的方法不同，LatentSync 采用端到端的方式，无需中间运动表示，能够直接建模复杂的音频与视觉之间的关系。

模型项目入口：https://github.com/bytedance/LatentSync

字节开源嘴型同步模型LatentSync，实现超真实口型同步

在 LatentSync 的框架中，首先使用 Whisper 将音频频谱图转换为音频嵌入，并通过交叉注意力层将其集成到 U-Net 模型中。框架通过将参考帧和掩码帧与噪声潜在变量进行通道级拼接，作为 U-Net 的输入。

在训练过程中，采用一步法从预测噪声中估计出干净的潜在变量，然后进行解码以生成干净的帧。同时，模型引入了 Temporal REPresentation Alignment（TREPA）机制，以增强时间一致性，确保生成的视频在口型同步准确性的同时，能够在时间上保持连贯。

为了展示该技术的效果，项目提供了一系列示例视频，分别展示了原始视频与经过口型同步处理后的视频。通过示例，用户可以直观地感受到 LatentSync 在视频口型同步方面的显著进步。

原始视频：

输出视频：

此外，项目还计划开源推理代码和检查点，方便用户进行训练和测试。对于想要尝试推理的用户，只需下载必要的模型权重文件，即可进行操作。完整的数据处理流程也已设计好，涵盖了从视频文件处理到面部对齐的各个步骤，确保用户能够轻松上手。

声明：本站资源来自会员发布以及互联网公开收集，不代表本站立场，仅限学习交流使用，请遵循相关法律法规，请在下载后24小时内删除。如有侵权争议、不妥之处请联系本站删除处理！请用户仔细辨认内容的真实性，避免上当受骗！

字节开源嘴型同步模型LatentSync，实现超真实口型同步

相关文章

字节跳动推出新 AI 模型INFP，让静态人像照片 “开口说话”

字节跳动推出新 AI 模型INFP，让静态人像照片 “开口说话”

AI视频工具 2 天前 2

超快AI音效生成模型TangoFlux：仅需3秒钟就能生成30秒长音频

超快AI音效生成模型TangoFlux：仅需3秒钟就能生成30秒长音频

AI视频工具 6 天前 0

美图AI短片工具MOKI会员功能上线：接入VIDU、可灵AI大模型

美图AI短片工具MOKI会员功能上线：接入VIDU、可灵AI大模型

AI视频工具 1 周前 0

一键式AI数字人系统AigcPanel 支持语音合成、声音克隆

一键式AI数字人系统AigcPanel 支持语音合成、声音克隆

AI视频工具 1 周前 4

可灵AI深夜放大招！悄悄上线AI模特功能

可灵AI深夜放大招！悄悄上线AI模特功能

AI绘画工具 2 周前 4

轻松搭建多模态AI应用！阿里云百炼大模型服务平台上线「音视频实时互动」功能

轻松搭建多模态AI应用！阿里云百炼大模型服务平台上线「音视频实时互动」功能

AI写作工具 3 周前 3

Domo AI发布v2v 5.0测试版：动漫变真人，视频编辑再升级

Domo AI发布v2v 5.0测试版：动漫变真人，视频编辑再升级

AI视频工具 3 周前 1

谷歌升级AI视频生成模型 Veo2，4K分辨率、人类偏好评分优于Sora

谷歌升级AI视频生成模型 Veo2，4K分辨率、人类偏好评分优于Sora

AI视频工具 3 周前 5