一个名为人工智能安全与规模人工智能中心刚刚推出了“Humanity’s Last Exam (人类的最后考试)”,这是一项新的人工智能测试基准,旨在评估当前和未来的大语言模型(LLMs)的学术知识和推理能力。

因为当前的人工智能系统已经变得过于强大,现有测试已无法满足。

它被设计为一个具有高度复杂性和挑战性的测试工具,通过全面覆盖学术科目,来衡量AI模型在封闭性问题(closed-ended questions)上的表现。

所有模型在这个测试面前都黯然失色!

官网:https://lastexam.ai/

关键信息:

  • 该基准测试包含 3000 个由专家精心设计的问题,涵盖 100 多个主题的数据集,贡献者来自 50 个国家的 500 多个机构。
  • 目前领先的 AI 模型在 HLE 上的性能出奇地低,即使是顶级系统的准确率也低于 10%。
  • 问题采用精确匹配或多项选择格式,其中 10% 的挑战结合了文本和图像的多模式分析。
  • HLE 包含一个50 万美元的奖金池用于激励高质量的提交,每个顶级问题可获得 5,000 美元奖金,并为贡献者提供共同创作的机会。

创作者与贡献者

  1. 创作团队
    • HLE 是由全球多个研究机构和专家团队合作完成的项目,核心创作团队包括来自 AI安全中心 (Center for AI Safety)Scale AI 等研究机构的成员。
    • 领导者包括 Long PhanAlice GattiDan Hendrycks 等专家。
  2. 贡献者
    • 数据集问题由全球近1000名学术领域的专家贡献,包括教授、研究人员及研究生。
    • 贡献者覆盖了50多个国家500多家机构,学科背景广泛。
  3. 学术支持
    • 包括 MIT斯坦福大学牛津大学加州大学伯克利分校等全球顶尖学术机构的研究人员。

HLE 的主要作用

  1. 测试 AI 模型的极限能力
    • 多学科测试:覆盖100多个科目,包括经典文学、生态学、物理学、数学等,包含复杂的学术问题。
    • 问题类型:以封闭性问题为主(如单选、多选、数值回答等),问题难度显著高于传统测试。
    • 多样化内容
      • 包括从简单知识验证到复杂推理和多步解题的广泛测试内容。
      • 示例:
        • 翻译古罗马墓碑铭文(语言学与历史结合)。
        • 生物学中蜂鸟骨骼结构的功能分析(生态学与解剖学结合)。
    • 问题设计理念
      • 打破现有模型对传统测试的“饱和”现象(现有模型在MMLU等传统测试中准确率超90%)。
      • 提供真正能反映LLMs能力极限的高难度问题。
  2. 评估当前 LLMs 的学术水平
    • 提供统一的指标,帮助研究人员了解AI模型的推理能力、知识覆盖范围以及准确性。
    • 当前的最先进模型(如 GPT-4 等)在该测试中的准确率低于10%,显示出显著提升空间。
    • 评估维度
      1. 模型准确率
        • 当前顶级模型(如GPT-4、Claude等)在HLE测试中的表现较低,准确率介于 3.3%-9.4%
        • 这些结果表明,尽管LLMs表现出快速进步,但在处理复杂学术问题上仍有巨大差距。
      2. 模型校准能力
        • 要求模型不仅给出答案,还需报告其信心水平(从0%到100%)。
        • 用于分析模型错误自信(如“幻觉”现象)的严重性。
      3. 多模态支持
        • HLE不仅测试文本生成能力,还涉及图像与文本结合的多模态评估。
  3. 推动 AI 模型的改进
    • 通过难度较高的测试问题,发现模型的弱点,指导改进和优化。
    • 预测未来的模型可能在2025年底达到50%以上的准确率。
  4. 促进 AI 安全与治理
    • 提供一个清晰的参考点,帮助科学家和政策制定者评估AI能力的发展路径、潜在风险以及必要的治理措施。
    • 数据集对比现有基准,弥补了它们难度不足和覆盖范围有限的问题。
  5. 校准模型的信心水平
    • 通过要求模型报告答案的信心水平,研究如何减少AI模型的错误信息(如“幻觉”)。