北京图森未来科技有限公司于2024年12月17日正式发布了其首款“图生视频”大模型——“Ruyi”,并将Ruyi-Mini-7B版本开源,以便用户从huggingface平台下载使用。图森未来成立于2015年,总部位于美国加利福尼亚州圣迭戈,专注于AI技术在多个行业的应用,包括动画游戏和交通运输行业。
Ruyi大模型专为在消费级显卡上运行而设计,提供详尽的部署说明和ComfyUI工作流,以便用户快速上手。该模型以其在帧间一致性、动作流畅性、色彩呈现和构图方面的卓越表现,为视觉叙事提供新的可能性,并针对动漫和游戏场景进行深度学习,成为ACG爱好者的理想创意伙伴。
Ruyi模型支持多分辨率、多时长生成,能够处理从384×384到1024×1024的分辨率,任意长宽比,最长120帧/5秒的视频生成。它还支持首帧、首尾帧控制生成,运动幅度控制,以及五种镜头控制。Ruyi基于DiT架构,由Casual VAE模块和Diffusion Transformer组成,总参数量约为7.1B,使用约200M视频片段进行训练。
尽管Ruyi在技术上取得了显著进展,但仍存在一些缺陷,如手部畸形、多人时面部细节崩坏、不可控转场等问题,图森未来正在努力改进并在未来的更新中修复这些问题。
展望未来,图森未来计划持续深耕场景需求,实现直接生成CUT的突破,并在下一次发布中提供两个版本,以满足不同创作者的需求。公司致力于利用大模型降低动漫和游戏内容的开发周期和成本,Ruyi大模型已经能够实现输入关键帧后生成5秒内容,或输入两个关键帧由模型生成中间过渡内容,降低开发周期。
Hugging Face 链接 :
https://huggingface.co/IamCreateAI/Ruyi-Mini-7B
声明:本站资源来自会员发布以及互联网公开收集,不代表本站立场,仅限学习交流使用,请遵循相关法律法规,请在下载后24小时内删除。 如有侵权争议、不妥之处请联系本站删除处理! 请用户仔细辨认内容的真实性,避免上当受骗!