视频生成领域迎来重大突破!Genmo 公司重磅开源了其最新的视频生成模型 Mochi1,为视频生成领域树立了新的标杆。Mochi1采用创新的 Asymmetric Diffusion Transformer(AsymmDiT)架构,拥有高达100亿个参数,是迄今为止公开发布的最大视频生成模型。

模型下载:https://huggingface.co/genmo/mochi-1-preview

在线体验:https://www.genmo.ai/play

官方介绍:https://www.genmo.ai/blog

更重要的是,它完全从头开始训练,具有简单、可修改的架构特点,为开源社区的开发者提供了极大的便利。

Mochi1的最大亮点在于其卓越的运动质量和对文本提示的精准遵循。它能够生成长达5.4秒、帧率高达30帧/秒的流畅视频,其时间连贯性和逼真的运动动态令人惊叹。

Mochi1还能模拟各种物理现象,例如流体动力学、毛发模拟等,其生成的人物动作自然流畅,几乎可以媲美真人表演。

为了方便开发者使用,Genmo 还开源了其视频 VAE,可以将视频压缩到原始大小的1/128,有效降低了模型的计算量和内存需求。

AsymmDiT 架构则通过多模态自注意力机制,高效处理用户提示和压缩视频标记,并为每种模态学习单独的 MLP 层,进一步提升了模型的效率和性能。

Genmo 重磅开源视频生成模型 Mochi 1,家用电脑也能创作好莱坞级大片!

Mochi1的发布,标志着开源视频生成领域迈出了重要一步。Genmo 公司表示,他们将在年底之前发布 Mochi1的完整版本,包括支持720p 视频生成的 Mochi1HD,届时视频的保真度和流畅度将进一步提升。

为了让更多人体验 Mochi1的强大功能,Genmo 还推出了免费的托管游乐场,用户可以在 genmo.ai/play 上进行体验。 Mochi1的权重和架构也已在 HuggingFace 平台上公开,供开发者下载使用。

Genmo 公司由 DDPM、DreamFusion 和 Emu Video 等项目的核心成员组成,其顾问团队包括 Databricks 和 Anyscale 的执行主席兼联合创始人 Ion Stoica、Covariant 的联合创始人兼 OpenAI 的早期团队成员 Pieter Abbeel 以及语言模型系统的先驱兼 Turi 的联合创始人 Joey Gonzalez 等行业领袖

Genmo 公司的使命是解锁通用人工智能的右脑,Mochi1是构建可以想象一切事物(无论可能还是不可能)的世界模拟器的第一步。

Genmo 公司最近完成了由 NEA 领投的 A 轮融资,总额高达2840万美元,这将为他们未来的研究和开发提供充足的资金支持。

虽然 Mochi1已经取得了令人瞩目的成就,但它仍然存在一些局限性。例如,初始版本目前只能生成480p 的视频,在某些极端运动的边缘情况下会出现轻微的扭曲和失真。此外,Mochi1目前主要针对照片写实风格进行了优化,在动画内容方面的表现还有待提升。

Genmo 公司表示,他们将继续改进 Mochi1,并鼓励社区对模型进行微调,以适应不同的审美偏好。同时,他们也在游乐场中实施了强大的安全审核协议,以确保所有视频生成都符合道德准则。