AI（人工智能）这个行业风口大概能持续多久

①OpenAI，基于时间推理的Scaling Laws，很有效，但自己先撞上了成本问题。我们不知道o1/Pro 需要多少CoT tokens，但很明显，这是一场成本悲剧。人们需要重新思考“模型规模”和“时间规模”的平衡。至少在我自己的预判，一种更加精细化，分割更清晰的MoE系统是必须的。(虽然Sam看起来在为下一次涨价寻找理由，但我一直认为Sam是一个比较坦诚，比较阳谋的人，信息量低，不会明目张胆地说谎)

②Google，在Time-Scaling中提取数据，反哺大模型预训练，这是对①的一个解决方案。现在大家都在这么做，包括DeepSeek，效果虽然不可能有①好，但却是一个平衡办法。从Gemini 2的表现来看，他们已经触摸到了“Sonnet 3.5时刻”

③Anthropic，Dario Amodei，Scaling Laws和RLHF的正式提出者。

Dario在去年上半年提到过合成数据，同时提出了两个暗示：普通的合成数据不太会产生有价值的内容。他暗示合成数据需要规则，提到了AlphaGo，实际上就是强化学习。——这应该就是Claude 3.5拔地而起的原因。Dario的乐观在于：他认为基于RL合成数据可能会产生源源不断的价值，甚至是无限的。我想在这点上，他会和Ilya Sutskever产生分歧，虽然他们曾经并肩作战，Dario在ilya心里的地位，应该和Alex Krizhevsky是差不多的。更讽刺的是，ilya可能是最早实践合成数据的人(和Alex Krizhevsky)。

Anthropic有没有o1？我想99.99%概率已经有了。Dario的妹妹，Daniela Amodei，是A社的总裁，她在一次采访中提到模型需要建立一个平衡机制，来决定什么时候启用“高级多步推理”，而什么时候不需要。而在我看来，A社可能想把这个决定权留给自己，因为这涉及最重要的问题——成本，从OpenAI目前的订阅亏损来看，这个问题的确非常棘手。A社正在暗中打造一个融合了RL generated Date(基于强化学习的数据)+Team RL Agents(多Agents团队强化学习)+RL CoT Reasoning(基于强化学习的推理)+Constitutional AI(A社打造的一种高阶RLHF)的RL智能天团。