揭秘DeepSeek:一个更极致的中国技术理想主义故事

中国的7家大模型创业公司中，DeepSeek（深度求索）最不声不响，但它又总能以出其不意的方式被人记住。

一年前，这种出其不意源自它背后的量化私募巨头幻方，是大厂外唯一一家储备万张A100芯片的公司，一年后，则来自它才是引发中国大模型价格战的源头。

在被AI连续轰炸的5月，DeepSeek一跃成名。起因是他们发布的一款名为DeepSeek V2的开源模型，提供了一种史无前例的性价比：推理成本被降到每百万token仅 1块钱，约等于Llama3 70B的七分之一，GPT-4 Turbo的七十分之一。

DeepSeek被迅速冠以“AI界拼多多”之称的同时，字节、腾讯、百度、阿里等大厂也按耐不住，纷纷降价。中国大模型价格战由此一触即发。

弥漫的硝烟其实掩盖了一个事实：与很多大厂烧钱补贴不同，DeepSeek是有利润的。

这背后，是DeepSeek对模型架构进行了全方位创新。它提出的一种崭新的MLA（一种新的多头潜在注意力机制）架构，把显存占用降到了过去最常用的MHA架构的5%-13%，同时，它独创的DeepSeekMoESparse结构，也把计算量降到极致，所有这些最终促成了成本的下降。

在硅谷，DeepSeek被称作“来自东方的神秘力量”。SemiAnalysis首席分析师认为，DeepSeek V2论文“可能是今年最好的一篇”。OpenAI前员工Andrew Carr认为论文“充满惊人智慧”，并将其训练设置应用于自己的模型。而OpenAI前政策主管、Anthropic联合创始人Jack Clark认为，DeepSeek“雇佣了一批高深莫测的奇才”，还认为中国制造的大模型，“将和无人机、电动汽车一样，成为不容忽视的力量。”

在基本由硅谷牵动故事进展的AI浪潮里，这是罕有的情形。多位行业人士告诉我们，这种强烈的反响源自架构层面的创新，是国产大模型公司乃至全球开源基座大模型都很罕见的尝试。一位AI研究者表示，Attention架构提出多年来，几乎未被成功改过，更遑论大规模验证。“这甚至是一个做决策时就会被掐断的念头，因为大部分人都缺乏信心。”

而另一方面，国产大模型之前很少涉足架构层面的创新，也是因为很少有人主动去击破那样一种成见：美国更擅长从0-1的技术创新，而中国更擅长从1-10的应用创新。何况这种行为非常不划算——新一代模型，过几个月自然有人做出来，中国公司只要跟随、做好应用即可。对模型结构进行创新，意味着没有路径可依，要经历很多失败，时间、经济成本都耗费巨大。

揭秘DeepSeek:一个更极致的中国技术理想主义故事

DeepSeek显然是逆行者。在一片认为大模型技术必然趋同，follow是更聪明捷径的喧哗声中，DeepSeek看重“弯路”中积累的价值，并认为中国的大模型创业者除应用创新外，也可以加入到全球技术创新的洪流中。

DeepSeek的很多抉择都与众不同。截至目前，7家中国大模型创业公司中，它是唯一一家放弃“既要又要”路线，至今专注在研究和技术，未做toC应用的公司，也是唯一一家未全面考虑商业化，坚定选择开源路线甚至都没融过资的公司。这些使得它经常被遗忘在牌桌之外，但在另一端，它又经常在社区被用户“自来水”式传播。

DeepSeek究竟是如何炼成的？我们为此访谈了甚少露面的DeepSeek创始人梁文锋。

这位从幻方时代，就在幕后潜心研究技术的80后创始人，在DeepSeek时代，依旧延续着他的低调作风，和所有研究员一样，每天“看论文，写代码，参与小组讨论”。

和很多量化基金创始人都有过海外对冲基金履历，多出身物理、数学等专业不同的是，梁文锋一直是本土背景，早年就读的也是浙江大学电子工程系人工智能方向。

多位行业人士和DeepSeek研究员告诉我们，梁文锋是当下中国AI界非常罕见的“兼具强大的infra工程能力和模型研究能力，又能调动资源”、“既可以从高处做精准判断，又可以在细节上强过一线研究员”的人，他拥有“令人恐怖的学习能力”，同时又“完全不像一个老板，而更像一个极客”。

声明：本站资源来自会员发布以及互联网公开收集，不代表本站立场，仅限学习交流使用，请遵循相关法律法规，请在下载后24小时内删除。如有侵权争议、不妥之处请联系本站删除处理！请用户仔细辨认内容的真实性，避免上当受骗！

揭秘DeepSeek