Epoch AI的马德里研究员Pablo Villalobos预测,到2028年左右,用于训练AI模型的数据集的规模将与公共在线文本总量相当,换句话说,AI训练数据很可能在四年后耗尽。
为了解决这一问题,目前AI公司有的在收集非公开数据,有的转向使用专注于健康护理、环境等的专业数据集,还有的在尝试合成数据。这些方法都在一定程度上缓解了数据不足的困境,但都存在一些缺陷,并不能彻底解决问题。
或许,AI的下一步不再是学习现有知识,而是自我反思与智能进化,就像卡内基梅隆大学的研究生Andy Zou说的这样:“现在它已经拥有了一个基础知识库,可能超过了任何一个人所能掌握的,这意味着它只需要静下心来思考。”
耗尽的数据,膨胀的需求
过去十年中,大语言模型的开发展现出了对数据的强烈需求。
Villalobos估计,自2020年以来,用于训练大语言模型的数据增长了100倍,可能已经占据了互联网中很大一部分的内容,并且,AI训练数据集的规模每年翻倍。然而另一边,互联网可用内容的增长速度却出奇的缓慢,估计每年增长不到10%。
基于这些趋势,Villalobos的研究显示,到2028年,AI训练数据很可能耗尽。
与此同时,内容提供商加入了越来越多的软件代码或完善其使用条款,禁止AI公司抓取其数据用于训练。
麻省理工学院的AI研究员Shayne Longpre领导着一个专门审计AI数据集的草根组织,并撰写了数据来源追溯倡议。Longpre的研究显示,数据提供商对特定爬虫的封锁数量急剧增加,2023年到2024年间,三大清洗数据集中最常用的高质量网络内容,封锁比例从不足3%增加到了20%-33%。
并且,几起侵权诉讼也在进行中——2023年12月,《纽约时报》起诉OpenAI和微软侵犯其版权;今年4月,Alden Global Capital旗下的八家报纸也联合提起了类似诉讼。如果美国法院判定内容提供商应当获得赔偿,那么AI开发者和研究人员将更难获取所需的数据。
AI公司的应对手段
面对内容提供商越来越严格的管控,AI开发者也在着手寻找解决办法。
OpenAI、Anthropic等知名AI公司公开承认了这个问题,表示他们有计划通过手段绕过这一管控,比如生成新的数据、寻找非常规的数据来源等。OpenAI的一位发言人对《自然》杂志表示:
“我们使用多个来源,包括公开可用的数据、AI训练师提供的数据、与非公开数据合作、生成合成数据等。”
分析师指出,如果目标是寻找更多数据,目前,主流方法有二:
一是收集非公开数据,如WhatsApp消息或YouTube视频的文字记录。例如,Meta曾表示他们使用虚拟现实耳机Meta Quest收集的音频和图像数据来训练AI。
Villalobos估计,这些数据大多质量较低或重复,且总量较小,不过即便如此,也足以延缓一年半左右时间的数据不足困境。
二是专注于快速增长的专业数据集,如天文学或基因组数据。
斯坦福大学的著名AI研究员Fei-Fei Li非常支持这种策略,她在5月的彭博技术峰会上表示,担忧数据即将耗尽的观点过于狭窄,因为在健康护理、环境、教育等领域有着丰富的未被开发的数据。
但Villalobos表示,目前尚不清楚这些数据集是否适合训练大语言模型,“很多数据类型之间似乎存在一定程度的迁移学习,但我对这种方法并不抱太大希望。”
不过,分析师也提醒道,尽管有各种方法应对数据紧张,但数据不足是实打实的问题,因此,这可能会迫使公司在构建生成AI模型时进行变革,使得AI的应用领域从大型、通用的大语言模型转向更小、更专业的细分模型。
还可以合成数据?
除了以上两种方式,Meta首席AI科学家Yann LeCun提出,如果无法找到数据,也可以尝试生成更多数据。
例如,一些AI公司付钱让人们生成内容用于AI训练,另一些公司则直接使用AI生成的合成数据来训练。
分析认为,这一数据来源潜力巨大——OpenAI今年早些时候表示,他们每天生成1000亿个单词,相当于每年生成超过36万亿个单词,与当前的AI训练数据集规模相当,并且这一产出正在快速增长。
总的来说,专家们一致认为合成数据在有明确、可识别规则的领域表现良好,如国际象棋、数学、计算机编码等。目前,AI工具AlphaGeometry已经通过1亿个合成示例进行训练并成功解决了几何问题。
此外,合成数据在真实数据有限或有问题的领域也已经被广泛应用,例如医疗领域,因为合成数据避免了隐私问题。
但合成数据也不是完美的——合成数据的问题在于,递归循环可能加剧错误、放大误解,并在整体上降低AI模型的学习质量。
2023年,一项研究提出了“模型自噬障碍(Model Autophagy Disorder)”这一术语,用于描述AI模型在这种情况下可能“崩溃”的现象。例如,一个部分使用合成数据训练的面部生成AI模型开始绘制带有奇怪哈希标记的面孔。