①OpenAI,基于时间推理的Scaling Laws,很有效,但自己先撞上了成本问题。我们不知道o1/Pro 需要多少CoT tokens,但很明显,这是一场成本悲剧。人们需要重新思考“模型规模”和“时间规模”的平衡。至少在我自己的预判,一种更加精细化,分割更清晰的MoE系统是必须的。(虽然Sam看起来在为下一次涨价寻找理由,但我一直认为Sam是一个比较坦诚,比较阳谋的人,信息量低,不会明目张胆地说谎)
②Google,在Time-Scaling中提取数据,反哺大模型预训练,这是对①的一个解决方案。现在大家都在这么做,包括DeepSeek,效果虽然不可能有①好,但却是一个平衡办法。 从Gemini 2的表现来看,他们已经触摸到了“Sonnet 3.5时刻”
③Anthropic,Dario Amodei,Scaling Laws和RLHF的正式提出者。
Dario在去年上半年提到过合成数据,同时提出了两个暗示:普通的合成数据不太会产生有价值的内容。他暗示合成数据需要规则,提到了AlphaGo,实际上就是强化学习。——这应该就是Claude 3.5拔地而起的原因。Dario的乐观在于:他认为基于RL合成数据可能会产生源源不断的价值,甚至是无限的。我想在这点上,他会和Ilya Sutskever产生分歧,虽然他们曾经并肩作战,Dario在ilya心里的地位,应该和Alex Krizhevsky是差不多的。更讽刺的是,ilya可能是最早实践合成数据的人(和Alex Krizhevsky)。
Anthropic有没有o1? 我想99.99%概率已经有了。Dario的妹妹,Daniela Amodei, 是A社的总裁,她在一次采访中提到模型需要建立一个平衡机制,来决定什么时候启用“高级多步推理”,而什么时候不需要。而在我看来,A社可能想把这个决定权留给自己,因为这涉及最重要的问题——成本,从OpenAI目前的订阅亏损来看,这个问题的确非常棘手。A社正在暗中打造一个融合了RL generated Date(基于强化学习的数据)+Team RL Agents(多Agents团队强化学习)+RL CoT Reasoning(基于强化学习的推理)+Constitutional AI(A社打造的一种高阶RLHF)的RL智能天团。
风口会持续多久?
即使我们解决了合成数据的问题,我们仍然要面对长文本成本和多模态成本的问题。——说来说去,并不是我们解决不了智能问题,可能是成本问题。
前几天,Meta提出了一个LCM的概念,从语言模型进化到“概念模型”,从Tokenization层面尝试解决问题。这是语言学和逻辑学的问题,我很有兴趣,但目前还深度去想这个问题——“词元与概念的关系”