海螺 AI 甩出“主体参考”，视频模型迈上新台阶

AI新闻

2025年视频模型或是AI领域的主阵地，在此背景下，海螺AI抛出的“主体参考”功能，并顺势，带给AI视频赛道一些新的解题思路。

一、更低成本，更好表现，「主体参考」保持人物一致性

海螺AI的“主体参考”功能可以将图片的视觉信息拆解、剥离，读取“主体”的视觉信息，然后根据文本prompt ，灵活设计人物的动作、行为、所处环境等，兼顾“视觉信息的精准性”和“文本信息的组合性”两项优势。

此前，可灵AI其实也上线了类似的AI人像模型，不过该模型的底层逻辑与海螺AI的“主体参考”功能截然不同。可灵AI的AI人像模型使用的是LoRA微调方案，需要上传10-30段多样、高质量的视频，等待几十分钟才能训练完成，单次训练成本高达100元。大量输入，对于普通用户而言，使用门槛也较高。

对比而言，海螺AI的“主体参考”功能仅需输入1张图片，叠加一次正常的运算成本，即可生成高质量视频内容，使用门槛以及成本都显著低于可灵AI。

海螺AI生成视频

结合具体的案例来看，尽管成本更低，但海螺AI的“主体参考”功能生成的视频效果依然很惊艳。我们给海螺AI输入了一张人物正面照，然后让它生成一个类似《指环王》电影风格的视频。

仔细观察视频可以发现，海螺AI不光可以准确理解Prompt提示词的要求，生成了电影级视效的视频，并且运动的人物面部也没有畸变，同时也可以保证细节精准还原，复杂光照环境下也有自然和谐的面光。

原始图片

海螺AI生成视频

让海螺AI结合人物正面照生成一个人脸抬起的同时，镜头快速拉近的视频时，其也能凭借先进的算法和卓越的图像处理能力，将人脸的每一处细节都处理得恰到好处。无论是精致的五官轮廓，亦或是下巴上的胡须，在运动过程中的过渡都十分流畅。

再来看看这个案例，海螺AI生成女性面部特写视频时，强大的数据处理和图像解析能力得以充分彰显。海螺AI能够以超乎想象的精准度，全方位地捕捉人物的面部特征。从每一根发丝的走向到面部细微的神态变化，无一遗漏。

原始图片

就拿视频中女性面部的三颗痣来说，这看似微小的细节，却成为了检验AI能力的关键之处。海螺AI在生成视频的过程中，对这三颗痣的位置、大小、颜色以及与周围皮肤的融合度等方面，都做到了精准还原。对比而言，目前市场上的其他AI产品，在面对如此精细的面部特征还原任务时，往往力不从心，难以达到海螺AI优异的表现。

海螺AI生成视频

再比如，我们用熟悉的表情包“what”哥，生成一段在餐厅上菜的视频。

原始图片

海螺AI生成视频

可以看到，“what”哥从走向餐桌到平稳放下菜肴的过程中，主角面部始终保持高度一致性。尤其他还面带微笑，与端菜场景高度匹配，整个画面充满生活气息和真实感。

另外，我们在体验过程中还发现，海螺AI可以同时生成5个视频，并且生成速度在1-3分钟内，这效率可以说是非常高了。

‍

其他AI视频产品生成的视频

作为对比，我们在其他AI视频产品中使用同样的照片和指令生成视频，结果其仅生成了一个镜头逐渐拉远的镜头，并不符合要求。随后，我们把指令换成了“这个人在马路上跳舞”，结果虽然生成了符合要求的内容，但出现了严重的人脸畸变和手掌消失等问题。

综合来看，海螺AI的“主体参考”功能在在用户输入和计算成本更可控的情况下，实现了更出色的生成效果，相较其他需要耗费巨额资金、海量素材和时间的AI人像模型方案，拥有更强的比较优势。

二、解决「主体一致」，释放更大商业潜力

视频生成大模型技术问世之初，就有诸多行业专家认为，其蕴含着巨大的商业价值，有潜力落地在商业广告、短剧等制作中。

不过不能忽视的是，一项新的技术迈向商用，不光需要具备想象力，也需要在效果、成本、效率等维度实现完美的平衡。目前市面上的大部分视频生成大模型技术，大多存在内容质量不佳、成本高企等问题，很难大规模商用。

测试下来，初代的模型可能偶尔不如T2V或I2V那样精确地遵循提示，并且会出现一些环境变形。但凭借高水准、高自由度的“主体一致”，可以看出MiniMax用技术创新解决应用痛点的思考与能力。海螺AI表示：未来会持续升级功能，逐步解决多主体参考、物体参考以及复杂的多层次场景。

在短剧市场，由于可以保持“主体一致性”，海螺AI的“主体参考”功能生成多个视频内容时，也能保证人物的一致性，可以极大地提高内容创作者的工作效率。

2024年10月-12月，AI产品榜中，海螺AI月访问量分别为1173万、1762万、2732万，分别同比增长2772.92%、39.33%、67.1%。经过数月的积累，2024年末，海螺AI凭借2732万的网站访问量超越Sora，位列视频生成产品榜单TOP 1。

放眼国内视频大模型市场，在众多参与者中，真正能够在技术创新、功能实用以及商业潜力等方面展现出强大竞争力的，只有寥寥数家。目前，海螺AI 已凭借出色效果和数据表现暂时领先。快手的可灵 AI 以“规模效应”占据重要位置，字节即梦AI虽尚未完全绽放光芒，但凭借字节跳动的强大实力，未来也值得期待。

可以预测，未来国内视频大模型的竞争格局，或将由快手的可灵 AI、字节的即梦AI，MiniMax的海螺AI三家主导。

声明：本站资源来自会员发布以及互联网公开收集，不代表本站立场，仅限学习交流使用，请遵循相关法律法规，请在下载后24小时内删除。如有侵权争议、不妥之处请联系本站删除处理！请用户仔细辨认内容的真实性，避免上当受骗！

海螺 AI 甩出“主体参考”，视频模型迈上新台阶

相关文章

利用 OpenAI 实时语音 API 构建智能语音应用的全新指南

利用 OpenAI 实时语音 API 构建智能语音应用的全新指南

AI新闻 4 小时前 0

定制你的聊天助手！ChatGPT 推出个性化性格设置功能

定制你的聊天助手！ChatGPT 推出个性化性格设置功能

AI新闻 4 小时前 0

Perplexity与旅游网站合作带来全新酒店信息搜索体验

Perplexity与旅游网站合作带来全新酒店信息搜索体验

AI新闻 4 小时前 1

小红书新做的这个AI搜索，有Perplexity们都眼馋的能力

小红书新做的这个AI搜索，有Perplexity们都眼馋的能力

AI新闻 4 小时前 0

2024 AI Agent应用TOP30

2024 AI Agent应用TOP30

AI新闻 4 小时前 0

用好AI的第一性原理，就是把人脑当成一种大模型！

用好AI的第一性原理，就是把人脑当成一种大模型！

AI新闻 4 小时前 0

Grok客户端正式推出可免费生图、聊天

Grok客户端正式推出可免费生图、聊天

AI新闻 1 天前 0

字节联合高校出品！STAR 模型：提升视频清晰度和分辨率

字节联合高校出品！STAR 模型：提升视频清晰度和分辨率

AI新闻 1 天前 0