决定AI下一步的关键问题：数据耗尽！

Epoch AI的马德里研究员Pablo Villalobos预测，到2028年左右，用于训练AI模型的数据集的规模将与公共在线文本总量相当，换句话说，AI训练数据很可能在四年后耗尽。

为了解决这一问题，目前AI公司有的在收集非公开数据，有的转向使用专注于健康护理、环境等的专业数据集，还有的在尝试合成数据。这些方法都在一定程度上缓解了数据不足的困境，但都存在一些缺陷，并不能彻底解决问题。

或许，AI的下一步不再是学习现有知识，而是自我反思与智能进化，就像卡内基梅隆大学的研究生Andy Zou说的这样：“现在它已经拥有了一个基础知识库，可能超过了任何一个人所能掌握的，这意味着它只需要静下心来思考。”

耗尽的数据，膨胀的需求

过去十年中，大语言模型的开发展现出了对数据的强烈需求。

Villalobos估计，自2020年以来，用于训练大语言模型的数据增长了100倍，可能已经占据了互联网中很大一部分的内容，并且，AI训练数据集的规模每年翻倍。然而另一边，互联网可用内容的增长速度却出奇的缓慢，估计每年增长不到10%。

基于这些趋势，Villalobos的研究显示，到2028年，AI训练数据很可能耗尽。

决定AI下一步的关键问题：数据耗尽！

与此同时，内容提供商加入了越来越多的软件代码或完善其使用条款，禁止AI公司抓取其数据用于训练。

麻省理工学院的AI研究员Shayne Longpre领导着一个专门审计AI数据集的草根组织，并撰写了数据来源追溯倡议。Longpre的研究显示，数据提供商对特定爬虫的封锁数量急剧增加，2023年到2024年间，三大清洗数据集中最常用的高质量网络内容，封锁比例从不足3%增加到了20%-33%。

并且，几起侵权诉讼也在进行中——2023年12月，《纽约时报》起诉OpenAI和微软侵犯其版权；今年4月，Alden Global Capital旗下的八家报纸也联合提起了类似诉讼。如果美国法院判定内容提供商应当获得赔偿，那么AI开发者和研究人员将更难获取所需的数据。

面对内容提供商越来越严格的管控，AI开发者也在着手寻找解决办法。

OpenAI、Anthropic等知名AI公司公开承认了这个问题，表示他们有计划通过手段绕过这一管控，比如生成新的数据、寻找非常规的数据来源等。OpenAI的一位发言人对《自然》杂志表示：

“我们使用多个来源，包括公开可用的数据、AI训练师提供的数据、与非公开数据合作、生成合成数据等。”

分析师指出，如果目标是寻找更多数据，目前，主流方法有二：

一是收集非公开数据，如WhatsApp消息或YouTube视频的文字记录。例如，Meta曾表示他们使用虚拟现实耳机Meta Quest收集的音频和图像数据来训练AI。

Villalobos估计，这些数据大多质量较低或重复，且总量较小，不过即便如此，也足以延缓一年半左右时间的数据不足困境。

二是专注于快速增长的专业数据集，如天文学或基因组数据。

斯坦福大学的著名AI研究员Fei-Fei Li非常支持这种策略，她在5月的彭博技术峰会上表示，担忧数据即将耗尽的观点过于狭窄，因为在健康护理、环境、教育等领域有着丰富的未被开发的数据。

但Villalobos表示，目前尚不清楚这些数据集是否适合训练大语言模型，“很多数据类型之间似乎存在一定程度的迁移学习，但我对这种方法并不抱太大希望。”

不过，分析师也提醒道，尽管有各种方法应对数据紧张，但数据不足是实打实的问题，因此，这可能会迫使公司在构建生成AI模型时进行变革，使得AI的应用领域从大型、通用的大语言模型转向更小、更专业的细分模型。

除了以上两种方式，Meta首席AI科学家Yann LeCun提出，如果无法找到数据，也可以尝试生成更多数据。

例如，一些AI公司付钱让人们生成内容用于AI训练，另一些公司则直接使用AI生成的合成数据来训练。

分析认为，这一数据来源潜力巨大——OpenAI今年早些时候表示，他们每天生成1000亿个单词，相当于每年生成超过36万亿个单词，与当前的AI训练数据集规模相当，并且这一产出正在快速增长。

总的来说，专家们一致认为合成数据在有明确、可识别规则的领域表现良好，如国际象棋、数学、计算机编码等。目前，AI工具AlphaGeometry已经通过1亿个合成示例进行训练并成功解决了几何问题。

此外，合成数据在真实数据有限或有问题的领域也已经被广泛应用，例如医疗领域，因为合成数据避免了隐私问题。

但合成数据也不是完美的——合成数据的问题在于，递归循环可能加剧错误、放大误解，并在整体上降低AI模型的学习质量。

2023年，一项研究提出了“模型自噬障碍（Model Autophagy Disorder）”这一术语，用于描述AI模型在这种情况下可能“崩溃”的现象。例如，一个部分使用合成数据训练的面部生成AI模型开始绘制带有奇怪哈希标记的面孔。

声明：本站资源来自会员发布以及互联网公开收集，不代表本站立场，仅限学习交流使用，请遵循相关法律法规，请在下载后24小时内删除。如有侵权争议、不妥之处请联系本站删除处理！请用户仔细辨认内容的真实性，避免上当受骗！