一个名为人工智能安全与规模人工智能中心刚刚推出了“Humanity’s Last Exam (人类的最后考试)”,这是一项新的人工智能测试基准,旨在评估当前和未来的大语言模型(LLMs)的学术知识和推理能力。
因为当前的人工智能系统已经变得过于强大,现有测试已无法满足。
它被设计为一个具有高度复杂性和挑战性的测试工具,通过全面覆盖学术科目,来衡量AI模型在封闭性问题(closed-ended questions)上的表现。
所有模型在这个测试面前都黯然失色!
官网:https://lastexam.ai/
关键信息:
- 该基准测试包含 3000 个由专家精心设计的问题,涵盖 100 多个主题的数据集,贡献者来自 50 个国家的 500 多个机构。
- 目前领先的 AI 模型在 HLE 上的性能出奇地低,即使是顶级系统的准确率也低于 10%。
- 问题采用精确匹配或多项选择格式,其中 10% 的挑战结合了文本和图像的多模式分析。
- HLE 包含一个50 万美元的奖金池用于激励高质量的提交,每个顶级问题可获得 5,000 美元奖金,并为贡献者提供共同创作的机会。
创作者与贡献者
- 创作团队
- HLE 是由全球多个研究机构和专家团队合作完成的项目,核心创作团队包括来自 AI安全中心 (Center for AI Safety) 和 Scale AI 等研究机构的成员。
- 领导者包括 Long Phan、Alice Gatti 和 Dan Hendrycks 等专家。
- 贡献者
- 数据集问题由全球近1000名学术领域的专家贡献,包括教授、研究人员及研究生。
- 贡献者覆盖了50多个国家的500多家机构,学科背景广泛。
- 学术支持
- 包括 MIT、斯坦福大学、牛津大学、加州大学伯克利分校等全球顶尖学术机构的研究人员。
HLE 的主要作用
- 测试 AI 模型的极限能力
- 多学科测试:覆盖100多个科目,包括经典文学、生态学、物理学、数学等,包含复杂的学术问题。
- 问题类型:以封闭性问题为主(如单选、多选、数值回答等),问题难度显著高于传统测试。
- 多样化内容:
- 包括从简单知识验证到复杂推理和多步解题的广泛测试内容。
- 示例:
- 翻译古罗马墓碑铭文(语言学与历史结合)。
- 生物学中蜂鸟骨骼结构的功能分析(生态学与解剖学结合)。
- 问题设计理念:
- 打破现有模型对传统测试的“饱和”现象(现有模型在MMLU等传统测试中准确率超90%)。
- 提供真正能反映LLMs能力极限的高难度问题。
- 评估当前 LLMs 的学术水平
- 提供统一的指标,帮助研究人员了解AI模型的推理能力、知识覆盖范围以及准确性。
- 当前的最先进模型(如 GPT-4 等)在该测试中的准确率低于10%,显示出显著提升空间。
- 评估维度
- 模型准确率:
- 当前顶级模型(如GPT-4、Claude等)在HLE测试中的表现较低,准确率介于 3.3%-9.4%。
- 这些结果表明,尽管LLMs表现出快速进步,但在处理复杂学术问题上仍有巨大差距。
- 模型校准能力:
- 要求模型不仅给出答案,还需报告其信心水平(从0%到100%)。
- 用于分析模型错误自信(如“幻觉”现象)的严重性。
- 多模态支持:
- HLE不仅测试文本生成能力,还涉及图像与文本结合的多模态评估。
- 模型准确率:
- 推动 AI 模型的改进
- 通过难度较高的测试问题,发现模型的弱点,指导改进和优化。
- 预测未来的模型可能在2025年底达到50%以上的准确率。
- 促进 AI 安全与治理
- 提供一个清晰的参考点,帮助科学家和政策制定者评估AI能力的发展路径、潜在风险以及必要的治理措施。
- 数据集对比现有基准,弥补了它们难度不足和覆盖范围有限的问题。
- 校准模型的信心水平
- 通过要求模型报告答案的信心水平,研究如何减少AI模型的错误信息(如“幻觉”)。
声明:本站资源来自会员发布以及互联网公开收集,不代表本站立场,仅限学习交流使用,请遵循相关法律法规,请在下载后24小时内删除。 如有侵权争议、不妥之处请联系本站删除处理! 请用户仔细辨认内容的真实性,避免上当受骗!