AI犯错不如人类那样可预测且成群出现。了解其错误规律,设计专门的防护机制,才能让技术更安全地融入社会。
人类每天都会犯错,从简单任务到复杂问题,错误无处不在。有些错误无伤大雅,而另一些可能导致灾难。为了应对这些问题,人类花了几千年设计各种安全机制。例如,赌场定期轮换荷官,避免他们长时间工作时出错;医院会在手术前标记病人肢体,防止操作失误;甚至在会计和法律审查中,我们也建立了复杂的检查和纠错流程。
社会正在快速接纳一种全新的“错误制造者”——人工智能。像大型语言模型(LLMs)这样的技术在完成许多认知任务时表现出色,但它们也会犯错。而且,它们的错误与人类的完全不同。AI的错误有时会显得荒谬可笑,比如建议吃石头或在披萨上加胶水。这种“奇怪”的错误模式是人类无法预见的,因此传统的纠错方法往往无效。
人类错误通常发生在知识的边缘领域,比如解高数题时出错是常见现象。这些错误通常具有聚集性和可预测性,例如疲劳或分心时更易出错。AI的错误则完全不同,它们可能随机分布在知识范围内,毫无主题可言。同样自信的回答可能是完全正确的,也可能荒谬至极。这种随机性和不稳定性使得人类难以信任AI在复杂问题上的推理能力。
这揭示了两个研究方向:一是让AI的错误更接近人类,二是为AI设计专属的纠错机制。目前已经有一些方法能引导LLMs更符合人类的思维方式,比如通过人类反馈强化学习技术,让AI更倾向于生成“合理”的回答。然而,现有的纠错系统还不足以解决AI的独特问题。
AI不会感到疲惫或不耐烦,因此可以通过重复询问和合成多次回答来降低错误率。此外,一些专门的工具正在开发中,用来捕捉和分析AI在错误中展现的“奇怪逻辑”,以便更好地预防潜在风险。
尽管AI的错误常被认为离谱,但某些模式其实与人类行为相似。例如,LLMs在回答问题时对提示词敏感,这和人类在问卷调查中因措辞变化而改变答案的现象如出一辙。此外,AI对常见概念的偏好可能反映了人类“可得性启发”的倾向——想到的第一个答案往往并非经过深思熟虑的结果。
AI在处理长文本时容易“中途分心”,这点也像人类。不过,训练更多样化的文本检索数据后,AI在这方面的表现已有改善。此外,研究还发现,某些人类的社交工程技巧,例如假装身份或开玩笑,竟然也能“欺骗”AI。
虽然人类偶尔也会犯奇怪的错误,但这种情况少见且通常预示更严重的问题。我们通常不会让表现出随机行为的人承担决策任务。同理,AI的应用应限制在它真正胜任的领域,同时对其错误的潜在影响保持警惕。