OpenAI 发布的最新模型 o3在 ARC-AGI 基准测试中取得了惊人的成绩,标准计算条件下得分高达75.7%,而高计算版本更是达到了87.5%。这一成就令 AI 研究界感到意外,但仍无法证明人工智能通用性(AGI)已被破解。
ARC-AGI 基准测试基于抽象推理库(Abstract Reasoning Corpus),该测试旨在评估 AI 系统适应新任务和展示流动智力的能力。ARC 包含一系列视觉谜题,需要理解基本概念如物体、边界和空间关系。人类能够轻松解决这些谜题,而目前的 AI 系统在这方面却面临很大挑战。ARC 被认为是 AI 评估中最具挑战性的标准之一。
o3的表现显著优于以往的模型。o1-preview 和 o1模型在 ARC-AGI 上的最高得分为32%。在此之前,研究人员 Jeremy Berman 采用混合方法将 Claude3.5Sonnet 与遗传算法结合,取得了53% 的分数,而 o3的出现则被视为 AI 能力的飞跃。
ARC 的创建者 François Chollet 称赞 o3在 AI 能力上的质变,认为其在新任务适应能力上达到了一种前所未有的水平。
尽管 o3的表现出色,但其计算成本也相当高。在低计算配置下,解决每个难题的费用在17到20美元之间,需消耗3300万个代币;而在高计算配置下,计算成本则增加至172倍,使用数十亿个令牌。然而,随着推理成本的逐步降低,这些开销可能会变得更加合理。
关于 o3如何达到这一突破,目前尚无详细的信息。有科学家猜测,o3可能使用了一种程序合成方法,结合链式思维和搜索机制。而另一些科学家则认为,o3可能只是通过进一步扩展强化学习而来。
尽管 o3在 ARC-AGI 上取得了重大进展,但 Chollet 强调,ARC-AGI 并不是 AGI 的测试,o3仍未达到 AGI 的标准。它在某些简单任务上依然表现不佳,显示出与人类智能之间的根本差异。此外,o3在推理过程中仍然依赖外部验证,这与 AGI 的独立学习能力相去甚远。
Chollet 团队正在开发新的挑战性基准,以检验 o3的能力,预计会将其得分降低到30% 以下。他指出,真正的 AGI 将意味着创造出对普通人来说简单但对 AI 来说困难的任务几乎变得不可能。