过去这一年,国内各个大公司都在大模型的应用场景、商业模式上大下功夫。一面是大模型的能力迭代,一面是 Agent、场景等的竞争,技术和产品的迭代很直观,直接推动大模型行业的百舸争流。
日行千里,烈火烹油的两年过去,飞速发展的大模型行业怎么样了?
与两年前“百模大战”为技术争夺的景象不同,玩家们有两个速度之争:一是技术迭代和产品更新的速度,二是商业化赚钱和应用落地的速度。
技术和产品的迭代很直观,直接推动大模型行业的百舸争流。从语言大模型,到文生视频大模型,再到 3D 生成大模型,几乎每隔几个月就会有让人眼前一亮的大模型出现。
大家都在尝试和摸索。每一次技术的扩大亮相,都会将具有前瞻性的大模型厂商推到聚光灯下,并引发新一轮的行业追随。
有人领先,就有人追赶。这些尚未成熟的技术,给了探路者弯道超车的机会,也带来了商业化的压力。
尤其是进入今年下半年,整个行业的风向更加微妙。市场逐渐对大模型祛魅,资本也回归理性,行业的两股势力也发生了站位的转换。
一边是阿里、字节等巨头投入的动作明显加快,收编大模型创业公司的核心人才,推出一系列 AI 产品;一边是创业公司开始重新评估自身的路线,国内“ AI 六小虎”有两家逐步放弃预训练模型,业务重心转向 AI 应用。
这背后,直指行业第二个速度之争:商业化的效率。
毋庸置疑,当下的大模型赛道高度拥挤,随着算力成本上涨、算力分配有限,对创业公司而言,大模型这场战役时间线拉得越长,创业公司的压力就越大。
“ AI 大模型(赛道),将只剩下 10 家企业扮演重要角色。”中国工程院外籍院士张亚勤曾表示。这几乎是行业的共识,最后的胜利属于少数的玩家。
大模型最终会进化成什么样,还不确定,但可以确定的是,大模型浪潮下,技术仍在迭代,场景仍在惊艳,商业化也始终在探索的路上。
过去两年,大模型不缺惊艳时刻,行业也处于百家争鸣的阶段,无论是暂时领先的玩家,还是奋力追赶的玩家,都有机会在奔跑中,抢到更多的蛋糕。
3D 世界、自主 Agent、思考大模型……大模型惊艳迭代
从 ChatGPT 的惊艳亮相开始,新一轮的 AI 浪潮整整奔涌了两年。AI 想象力被重启,大模型站上 C 位,围绕大模型的讨论和尝试也爆发式增长。
大模型的终局是什么样的?这一问题的答案吸引众多玩家前赴后继地卷技术、卷应用。
根据 lifearchitect.ai 数据,截至目前,全球总共有 467 个大模型。新技术不断涌现,行业竞速赛愈演愈烈,大模型厂商都在不断迭代升级,旨在离 AGI 更进一步。
进入到今年,除了应用上的百家争鸣,一个明显的变化在于,以 ChatGPT 为代表的大语言模型局限性日益显现。比如,他们只能处理文本领域的任务,无法与物理和社会环境进行互动;虽然大模型语料库已经十分丰富,但关于人类的价值观的文本,他们并不具备理解能力……
技术被重构,大模型行业也在不断改进和进化中,行业在寻找下一个更“类人”的模型或应用。
北京时间 12 月 3 日,“ AI 教母”李飞飞创立的 World Labs 推出最新成果:世界模型,一张单个图像即可生成 3D 世界。
图源 World Labs 官网
以往,我们熟知的大多数 GenAI 工具仅能制作图像 / 视频 2D 内容。World Labs 则实现了在 3D 中生成,视频的控制性、一致性能得到改善。World Labs 称,他们所生成场景的独特之处在于它们具有交互性,而且是可修改的。
这是今年 9 月份创立 World Labs 以来,李飞飞团队推出的首个成果,也是其迈向空间智能的第一步。早在成立之初,李飞飞团队瞄准的就是空间智能,其初衷就是空间智能的 AI,能够对世界进行建模,同时根据 3D 时空中物体 / 地点 / 交互进行推理。
李飞飞的个人影响力,加之空间智能的想象力,World Labs 成立三个月,有消息称其估值达 10 亿美元。
两天后,北京时间 12 月 5 日,Google Deepmind 紧随其后发布了最新基础世界模型 Genie 2。作为今年初推出的 Genie 模型的升级版,Genie 2 只需要一张图就能生成可玩的 AI 系统。DeepMind 透露,Genie 2 具备从不同视角(如第一人称视角与等距视角)生成连贯世界的能力,这些生成的世界可持续时间长达一分钟,尽管多数情况下维持在 10 到 20 秒之间。
如果说世界模型展现的是模型理解虚拟世界运作规律,并准确做出预测的能力,那 OpenAI 今年 9 月推出的 o1 系列模型则在于会思考。
彼时,OpenAI CEO 奥特曼对 o1 信心满满,“我认为这次 o1 模型发布最重要的信息是,AI 发展不仅没有放缓,而且我们对未来几年已经胜券在握。”
与 GPT 系列模型不同,o1 系列模型有更强大的“思路链”,模型会在思考后回答用户问题,输出高质量的内容,而非迅速回应无效回答。此外,o1 系列更擅长推理,推理能力大幅提升,特别是在奥数、编程等领域展现出了优势。
行业风向标的新动作,引发国内大模型厂商的追赶。11 月 16 日,月之暗面公布了 k0 math;11 月 20 日,Deepseek 上线 DeepSeek-R1-Lite 大模型;11 月 27 日,昆仑万维推出“天工大模型 4.0 ” o1 版……无一不在强调大模型的逻辑思考能力。
无论是哪种路线的大模型进化,都让人类离 AGI 更进一步。
其中,在应用层面,今年还有一个趋势不能忽视,人类与机器的互动方式正在发生范式转变,拥有对话功能的 GPT 逐渐进化能行动的 AI Agent(智能体)。
市场研究机构 Research and Market 在 11 月 11 日发布的报告中指出,未来五年 AI 智能体的市场规模将增加 420 亿美元。麦肯锡也表示,AI 智能体将是生成式 AI 的下一个前沿。
具体到玩家的动作上,“有手、有脑、有眼睛”的 AI Agent 成为玩家抢滩的对象。
10 月份,作为最早探索 Agent 的初创企业智谱,推出自主智能体 AutoGLM ;一个月后的 Agent OpenDay 上,智谱展示了 AI Agent 的最新成果,包括 AutoGLM、AutoGLM-Web、GLM-PC 三个版本,对应手机、浏览器、电脑的应用场景。
新升级的 AutoGLM 能够理解超长指令,执行超长任务,在多步、循环任务中,AutoGLM 的速度表现超过人手动操作。可以预见的是,当技术足够成熟,一个 Agent 就能帮助人操控一切。
此前,微软 Ignite 大会上,微软宣布已建立全球规模最大的企业级 AI Agent 生态系统;前 OpenAI 高管创办的初创公司 Anthropic 推出名为 Claude 的 AI 智能体;OpenAI 被传出将在 2025 年 1 月发布代号为 Operator 的智能体。
在国内,智能体也百花齐放。一边是手机厂商开始拿出智能体、智能助力讲故事;一边是巨头下场做智能体。比如字节跳动的扣子、腾讯云的腾讯元器、百度智能云千帆 AgentBuilder、阿里云大模型平台百炼、……
这一年,大模型不缺惊艳时刻。会思考的大模型、会想象的大模型、会预测的大模型,站在大模型技术的潮头,走向 AGI 的路上,更惊艳的产品迭代一直在发生。
AI 视频,新的角逐中谁都不甘落后
时间回到今年 2 月,行业军备竞赛持续一年,OpenAI 再次将大模型行业推至高潮。OpenAI 以世界模拟器的名号发布了视频生成模型 Sora,让“一句话生成视频”变成可能。
行业的加速器来自 Sora。追赶 Sora、超越 Sora,几乎成了海内外大模型玩家的共识。
在海外,今年 5 月,谷歌发布对标 Sora 的文生视频模型 Veo;6 月,Luma 推出 Dream Machine 视频生成模型,AI 视频生成初创公司 Runway 推出 Gen-3 Alpha 模型。
将视角放到国内,玩家们为“中国版 Sora ”争先恐后,催生两轮爆发期。
先是今年 5 月开始,生数科技 Vidu、快手可灵、字节即梦、智谱清影、商汤 Vimi 等都相继发布文生视频模型。
今年 9 月,国产视频生成大模型又迎来了新一轮爆发。MiniMax 正式发布视频模型 video-01、阿里云在云栖大会上发布通义万相全新视频生成模型、美图宣布 MiracleVision 大模型完成视频生成能力的升级。
今年 11 月,腾讯混元大模型正式上线视频生成能力。目前的生成视频支持中英文双语输入、多种视频尺寸以及多种视频清晰度。另一边,月之暗面旗下 Kimi 被爆出正在内测 AI 视频生成功能“ Kimi 创作空间”,可通过 12 种预设风格模板和自定义创作功能,为用户制作个性化音乐视频。
两轮爆发期间,随着初创企业和巨头的入局,AI 视频赛道正变得拥挤。更关键的是,经过上半年密集发布新产品的阶段,想要在竞争中突出重围,行业的比拼从“有没有”升级为“好不好用”。
为了变得好用,升级更新是玩家们的统一动作。在国内,动作最快的莫过于有视频基因的快手和抖音。
截至今年 9 月,快手可灵经历了十次迭代升级。目前,在可灵 1.5 模型的支持下,可灵 AI 可以直出 1080p 高清视频,挑战大屏清晰度与质感。在图生视频方面,可灵 1.5 模型可以响应更复杂的文本描述要求。此外,可灵 AI 还支持运动笔刷、对口型等功能。
可灵 AI 对口型功能,图源可灵 AI 微信公众号
快手科技 2024 年投资者日上,快手主站业务与社区科学线负责人盖坤介绍,已有累计超 260 万人使用过可灵 AI,并累计生成超 2700 万个视频、5300 万张图片。
同为视频赛道的字节,与快手正面交锋。今年一季度,字节 AI 研发团队将视频生成模型的优先级排在前列。3 月底,即梦开启视频生成功能内测;9 月,字节发布豆包模型家族的两款视频生成模型 Seaweed 和 Pixeldance,并通过即梦 AI、火山引擎小范围邀测。
相比于之前的视频生成模型大多只能完成简单指令,字节的这两款模型能让视频在大动态与运镜中自由切换,拥有变焦、环绕、目标跟随等多镜头语言能力,能更好地服务在视频、电影领域的专业创作者。
11 月,Seaweed 面向平台用户正式开放。据字节方面介绍,本次开放使用的豆包视频生成模型 Seaweed 是该款模型的标准版,仅需 60 秒即能生成时长 5 秒的高质量 AI 视频,领先国内业界 3 至 5 分钟的所需生成时间。
从底层技术看,AI 视频赛道玩家的路线基本一致,即采用 Transformer 架构的新型扩散模型 DiT,进行相关扩散、生成的技术突破。也就是说,玩家更多是通过训练数据丰富产品功能。
这也是字节、快手在 AI 视频赛道跑得更快的原因。“ Sora 们”切入的 60s 视频正是字节、快手的基本盘。在短视频生态下,二者有丰厚的视频土壤滋养,这种视频数据的训练,正是推动大模型“好用”的关键因素。
历经近一年,国内文生视频大模型赛道进入了 Sora 时刻。AI 视频大模型的生成能力迈入新阶段的同时,我们也要看到行业的焦虑。
从实际落地层面上看,如果是 B 端商业生产,短剧、电影、广告对画面的连续性、一致性要求很高;如果是 C 端用户娱乐,对 AI 生成的最大要求是真实性。
需求倒逼技术,想实现真正的好用,并不容易。
从技术上看,当下视频模型在理解、创作物理世界方面的表现依旧有限,画面的连贯稳定、主体的一致真实以及视频的时长都亟需迭代进化。
从成本上看,当下的视频技术很难下放到寻常百姓家,名噪一时的 Sora 至今仍处于研究阶段,仅面向少数专业人士进行内测,很大一部分原因就在于高昂的成本。
再回到 AI 视频是行业趋势的这个问题上,厂商们之所以纷纷下注,一方面是因为行业需求催生了市场规模。
头豹研究院数据显示,2021 年中国 AI 视频生成行业的市场规模为 800 万元,预计 2026 年,这一市场规模将达到 92.79 亿元。
另一方面,大模型的商业落地进度越来越迫切,相比于 ChatGPT 这种聊天机器工具,AI 视频生成是大模型技术商业化落地更具潜力的赛道。
效率之争、落地之战
两年,给行业带来技术革命,也让行业变得冷静。
今年 7 月,2024 世界人工智能大会上,百度创始人李彦宏在演讲中提到,“ 2023 年国内出现了百模大战,其实造成了社会资源的巨大浪费,尤其是算力的浪费。”
李彦宏言辞激烈的背后,是整个行业更加理性。市场期待在模型之中长出能落地的应用,为大模型厂商赚到钱、为各行各业提供效率。
抛开技术问题,这注定是一场应用落地的效率之战,这也就回到了商业化的问题上。
从去年“百模大战”,到今年应用之战,无论是哪个阶段,商业化都是大模型行业反复提到的话题。大模型的特殊性在于“烧钱”,技术上的研发成本,应用上的运行成本,每一步都少不了真金白银的支持,这也是大模型企业们的“紧箍咒”。
在国内,相比于两年前焦灼地坐上牌桌,争做“中国 OpenAI ”的执念,这群 AI 明星企业将重点放在了商业化落地应用的探索上。
据智能涌现报道,被称为“ AI 六小虎”的 6 家中国大模型独角兽(智谱、零一万物、MiniMax、百川智能、月之暗面、阶跃星辰)中,已经有两家逐步放弃预训练模型,缩减了预训练算法团队人数,业务重心转向 AI 应用。
这透露了市场两个曲线,一个是部分初创企业正被困在商业化的焦虑里;二是行业商业化战线拉长,巨头的战斗力更足。
比如去年只发布了语言大模型的字节,今年一口气补全了视频、3D、音乐等多领域的大模型。在应用层面,字节陆续推出了十几个 AI 应用,覆盖了娱乐、对话、Agent 等多个产品方向。
在 C 端表现上,下半年巨头商业化的影响力更为突出。据数据分析机构 QuestMobile,字节豆包 App 今年 9 月的日活已达 760 万,成为中国日活最大的 AI 产品。
这一趋势下,大厂和创业公司的角色站位也发生变化。尤其是步入今年下半年,当资本冷静,一些 AI 明星创业公司被巨头收编,大模型创业公司高管加入大厂。
这验证了大厂坚决投入 AI 的重要性。AI 是个增量,不仅能为大厂原有业务带来新的想象力,大厂原有的业务场景也可以为 AI 提供商业闭环。
不过,尽管是资源和场景更为丰富的大厂,面对市场对其巨额 AI 投入何时能换来回报的质疑时,也有些迷茫。
迷茫的背后,还有个更重要的问题:Scaling Law 还成立吗?
所谓 Scaling Law,是大模型行业的一个重要技术原理。具体而言,OpenAI 四年前曾经发布过一篇论文表示,模型的性能会随模型参数量、数据量、计算资源增加而指数提升。
只要 Scaling Law 还成立,那么大模型的能力就可以通过算力、参数、数据的训练实现 AGI。
行业仍是积极的。特别是 OpenAI 推出 o1 后,标志着大模型能力突破到了 L2 阶段。大模型开始真正拥有了逻辑思维能力,在无人力干预的情况下进行规划、验证和反思。
某种程度上,o1 打破了预训练的 Scaling Law 瓶颈,商业上解锁了新的可能。在 OpenAI 和智谱给出的“通往 AGI 五阶段”的定义中,两家公司均将多模态和语言能力归在 L1 阶段,也就是最为基础的能力配备。
这个行业,从 ChatGPT,到 Sora,再到 o1,OpenAI 仍是具有时代性的公司。也许和过去一样,哪个大模型厂商能最先追上 o1,市场还会迎来一波新高潮。
追赶技术的路上,玩家们不能忽视的是如何把钱花到刀刃上,这是一场技术、应用、场景的效率之战。
眼下,行业的淘汰赛已经开始,李彦宏曾预测,在未来 AI 浪潮里,市场中 99% 的伪创新都将被淘汰,只有 1% 的企业能够脱颖而出。谁是这 1%,谁能创造“新”世界,要等市场给出答案。