OpenAI 新模型o3在ARC-AGI基准测试得分破纪录

AI新闻

OpenAI 发布的最新模型 o3在 ARC-AGI 基准测试中取得了惊人的成绩，标准计算条件下得分高达75.7%，而高计算版本更是达到了87.5%。这一成就令 AI 研究界感到意外，但仍无法证明人工智能通用性（AGI）已被破解。

ARC-AGI 基准测试基于抽象推理库（Abstract Reasoning Corpus），该测试旨在评估 AI 系统适应新任务和展示流动智力的能力。ARC 包含一系列视觉谜题，需要理解基本概念如物体、边界和空间关系。人类能够轻松解决这些谜题，而目前的 AI 系统在这方面却面临很大挑战。ARC 被认为是 AI 评估中最具挑战性的标准之一。

OpenAI 新模型o3在ARC-AGI基准测试得分破纪录

o3的表现显著优于以往的模型。o1-preview 和 o1模型在 ARC-AGI 上的最高得分为32%。在此之前，研究人员 Jeremy Berman 采用混合方法将 Claude3.5Sonnet 与遗传算法结合，取得了53% 的分数，而 o3的出现则被视为 AI 能力的飞跃。

ARC 的创建者 François Chollet 称赞 o3在 AI 能力上的质变，认为其在新任务适应能力上达到了一种前所未有的水平。

尽管 o3的表现出色，但其计算成本也相当高。在低计算配置下，解决每个难题的费用在17到20美元之间，需消耗3300万个代币;而在高计算配置下，计算成本则增加至172倍，使用数十亿个令牌。然而，随着推理成本的逐步降低，这些开销可能会变得更加合理。

关于 o3如何达到这一突破，目前尚无详细的信息。有科学家猜测，o3可能使用了一种程序合成方法，结合链式思维和搜索机制。而另一些科学家则认为，o3可能只是通过进一步扩展强化学习而来。

尽管 o3在 ARC-AGI 上取得了重大进展，但 Chollet 强调，ARC-AGI 并不是 AGI 的测试，o3仍未达到 AGI 的标准。它在某些简单任务上依然表现不佳，显示出与人类智能之间的根本差异。此外，o3在推理过程中仍然依赖外部验证，这与 AGI 的独立学习能力相去甚远。

Chollet 团队正在开发新的挑战性基准，以检验 o3的能力，预计会将其得分降低到30% 以下。他指出，真正的 AGI 将意味着创造出对普通人来说简单但对 AI 来说困难的任务几乎变得不可能。

声明：本站资源来自会员发布以及互联网公开收集，不代表本站立场，仅限学习交流使用，请遵循相关法律法规，请在下载后24小时内删除。如有侵权争议、不妥之处请联系本站删除处理！请用户仔细辨认内容的真实性，避免上当受骗！

OpenAI 新模型o3在ARC-AGI基准测试得分破纪录

相关文章

讯飞星火浏览器插件新升级新增翻译总结、继续提问等AI功能

讯飞星火浏览器插件新升级新增翻译总结、继续提问等AI功能

AI新闻 14 小时前 2

阿里发布多模态推理模型QVQ-72B！视觉、语言能力双提升，复杂问题迎刃而解

阿里发布多模态推理模型QVQ-72B！视觉、语言能力双提升，复杂问题迎刃而解

AI新闻 14 小时前 2

QQ音乐14.0版本上线，发布首个AI大模型音效、智能匹配听歌音效

QQ音乐14.0版本上线，发布首个AI大模型音效、智能匹配听歌音效

AI新闻 14 小时前 1

OpenAI真的开源了！这波「实时语音」操作，让万物开口说话，我爱了

OpenAI真的开源了！这波「实时语音」操作，让万物开口说话，我爱了

AI新闻 14 小时前 1

100亿美元史上最大融资背后，国内外巨头齐瞄准Data+AI

100亿美元史上最大融资背后，国内外巨头齐瞄准Data+AI

AI新闻 14 小时前 0

2025年AI Agent新纪元：两大报告揭秘发展蓝图与挑战

2025年AI Agent新纪元：两大报告揭秘发展蓝图与挑战

AI新闻 14 小时前 0

2024 AI大模型年度十大关键词发布

2024 AI大模型年度十大关键词发布

AI新闻 14 小时前 0

IBM发布更新版Granite 3.1开源语言模型，性能大幅提升

IBM发布更新版Granite 3.1开源语言模型，性能大幅提升

AI新闻 2 天前 2