DeepSeek颠覆了什么?——大模型“国产之光”破局的启示

  一家人工智能初创企业浅浅扇动两下翅膀,即掀起全球科技界的一阵“海啸”。

  短短30天,中国初创企业深度求索(DeepSeek)先后发布两款性能比肩GPT-4o的大模型,“1/18的训练成本、1/10的团队规模、不分伯仲的模型性能”令硅谷大受震撼。

  最新一期《经济学人》封面文章第一时间让位给这一土生土长的国产大模型:《低成本中国模型的成功动摇美国科技优势》。很快,华尔街也同样感受到了这种被动摇的震感。

  事实上,这匹黑马的贡献绝非“低成本”这一个标签所能概括。它不仅重新定义了大模型的生产函数,还将重新定义计算。

  不论开源与闭源未来的优势如何,这股冲击波都将迫使全球科技界重新思考:当“规模定律”与“生态壁垒”不再绝对,什么才是下一赛季AI竞争的核心?或许我们能从中获得新的启示。

  击穿三大定式

  1月下旬,DeepSeek在中区、美区苹果App Store下载榜单中登顶,超越ChatGPT、谷歌Gemini等全球顶尖科技巨头研发的模型产品。具体而言,它颠覆了什么?

  ——打破“越强越贵”的成本诅咒

  价格感人是让DeepSeek快速出圈的第一个标签。DeepSeek-R1的API服务定价为每百万输入tokens 1元(缓存命中)/4元(缓存未命中),每百万输出tokens 16元,而o1模型上述三项服务的定价分别是55元、110元、438元。

  凡是使用过几款大模型的用户很快就能形成这样一个共识:就推理能力而言,DeepSeek直逼OpenAI的o1、Meta的Llama-3等一流模型,甚至在回答问题之前还能给出它的推理过程和思考链路。AI投资机构Menlo Ventures负责人Deedy对比谷歌Gemini和DeepSeek-R1后表示,DeepSeek-R1更便宜、上下文更长、推理性能更佳。低成本比肩o1模型,令硅谷的“烧钱模式”一时间遭到猛烈质疑。

  然而在过去,大模型服务是标准的“一分钱一分货”,想要用上更优性能的产品必须支付更高昂的费用,以覆盖整个模型训练过程中更高算力成本的支出。

  ——超越“性能-成本-速度”的不可能三角

  当硅谷仍在为GPU万卡集群豪掷千亿资金时,一群土生土长的中国年轻人用557.6万美元证明:AI大模型的比拼或许并不只靠规模,更重要的是看实际效果。有句话形象地概括出DeepSeek的优势:“不是GPT用不起,而是DeepSeek更具性价比。”

  传统模型训练,需要在性能、成本、速度之间权衡,其高性能的获得,需要极高的成本投入、更漫长的计算时间。而DeepSeek重构了大模型的“成本-性能”曲线,同时压缩了计算周期。

  根据DeepSeek技术报告,DeepSeek-V3模型的训练成本为557.6万美元,训练使用的是算力受限的英伟达H800 GPU集群。相比之下,同样是开源模型的Meta旗下Llama-3.1模型的训练成本超过6000万美元,而OpenAI的GPT-4o模型的训练成本为1亿美元,且使用的是性能更加优异的英伟达H100 GPU集群。而使用过程中,DeepSeek给出反馈的时长也大部分控制在5秒至35秒之间,通过算法轻量化、计算效率最大化、资源利用率优化,成功压缩了计算时间,降低了延迟。

  ——走出“参数膨胀”陷阱

  ChatGPT横空出世后700多天里,全球人工智能巨头不约而同走上了一条“大力出奇迹”的“暴力美学”路线,参数越“炼”越大,给算力、数据、能耗带来了极大压力。很长一段时间,参数几乎成为大模型厂商比拼的最大焦点。

  而另辟蹊径的DeepSeek恰巧处于对角线的另一端:并不盲目追求参数之大,而是选择了一条通过探索更高效训练方法以实现性能提升的“小而精”路线,打破了“参数膨胀”的惯性。

  例如DeepSeek-R1(4B参数)在数学推理、代码生成等任务上具有比肩70B参数模型(如Llama-2)的能力,通过算法优化、数据质量提升,小参数模型一样能实现高性能,甚至能够“四两拨千斤”。

  实现三大跃升

  “DeepSeek出圈,很好地证明了我们的竞争优势:通过有限资源的极致高效利用,实现以少胜多。中国与美国在AI领域的差距正在缩小。”面壁智能首席科学家刘知远说。

  算力封锁下的有力破局,得益于DeepSeek技术架构、数据策略、工程实践三方面的关键突破。

  ——技术架构:重新定义参数效率

  大模型的千亿参数不应是冰冷的数字堆砌,而应是巧夺天工般地重组整合。

  传统大模型Transformer架构好比一条承载车辆的高速公路,当车辆(数据)数量足够多的时候,每辆车必须和前后所有车沟通完成才能继续行驶(计算),导致堵车(计算慢、能耗高)。而DeepSeek创新的架构则把一条串行的高速路,变成了一个辐射状的快递分拣中心,先把货物(数据)按类型分类打包,再分不同路线同时出发开往不同目的地,每辆货车(计算)只需选择最短路径。因此既能提高速度又能节约能耗。

  ——数据策略:质量驱动的成本控制

  DeepSeek研发团队相信,用“炼数据”取代“堆数据”,能使训练更具效率。

  传统的数据策略好比去农场随便采捡,常有价值不高的烂菜叶(低质量数据)。而DeepSeek创新的数据蒸馏技术,有针对性地筛选掉质量不高的烂菜叶:一方面自动识别高价值数据片段(如代码逻辑推理链),相比随机采样训练效率提升3.2倍,另一方面通过对抗训练生成合成数据,将高质量代码数据获取成本从每100个tokens的0.8元降低至0.12元。

  ——工程实践:架起“超级工厂”流水线

  大模型传统的训练方式好比手工造车,一次只能装配一台,效率低下。而DeepSeek的3D并行相当于一方面通过流水线并行把造车流程拆分为10个步骤,同时组装10辆车(数据分块处理),另一方面通过张量并行,把发动机拆成零件,分给10个工厂同时生产(模型分片计算)。

  至于推理过程,传统模型好比现点现做的餐厅,客户等菜时间长,推理过程慢。而DeepSeek采用的INT4量化,能把复杂菜品提前做成预制菜,加热(计算)时间减半,口味损失不到5%,实现了大模型的低成本工业化。

  超越技术的启示

  拆解DeepSeek的成功公式不难发现,通过底层架构创新降低AGI成本,同时以开源策略构建生态护城河,提供了中小型机构突破算力限制的可行路径。此外,我们还能从中得到一些超越技术的启示。

  一直以来,驱动DeepSeek的目标并非利润而是使命。“探索未至之境”的愿景也指向一种与之匹配的极简且清爽的组织架构。

  一名人工智能科学家表示,在人工智能大模型领域,大厂、高校、传统科研机构、初创公司在资源禀赋上其实各有优势,但结构性的局限很难扭转。DeepSeek这种类型的初创公司能很好地弥补其中的一个缺位——具有大工程能力、不受制于短视商业逻辑的创新定力、创业团队扁平化组织机制带来的丝滑流畅的协作度。

  据不具名人士透露,其V3模型的关键训练架构MLA就源于一位年轻研究员的个人兴趣,经过研判后DeepSeek组建了专项团队开展大规模验证与攻关。而R1模型果断调整强化学习路线,领先于其他机构实现了近似o1的推理能力,核心原因之一也归功于其青年团队对前沿技术的敏锐嗅觉与大胆尝试。

  “我们创新缺少的不是资本,而是信心,以及组织高密度人才的能力,调动他们高效地进行创造力与好奇心驱动的创新。”DeepSeek创始人梁文锋说。

  在DeepSeek身上,我们看到了皮克斯动画工作室的影子。这个年轻的中国初创企业与那个创作27部长片有19部获得奥斯卡最佳动画、同样以创新为鲜明标签的组织,有着不谋而合的组织机制与范式选择,以及由此带来的高企的创新成功率与人才留存率。

  不同于先发者略显封锁的护城堡垒,DeepSeek赢得赞誉的还有它的开源路线。将代码、模型权重和训练日志全部公开,不仅需要格局,更需要勇气与实力。

  “在颠覆性技术面前,闭源形成的护城河是短暂的。即使OpenAI闭源,也无法阻止被别人赶超。”梁文锋这样解释选择开源的原因,“开源、发论文,其实并不会失去什么。对于技术人员来说,被follow(追随模仿)是很有成就感的事。”

  从技术到愿景,DeepSeek坚定选择的始终是一条难且正确的路。这也是为什么,即便别国在人工智能领域已坐享先发优势,后发者依然有机会凭借技术创新、成本革命打破大模型竞争的传统逻辑,打破人工智能行业竞争格局,打破“他国更擅长从0到1的原始创新,而中国更擅长从1到10的应用创新”的成见,重塑竞争优势的奥秘。

  北京时间2月1日凌晨,在OpenAI发布其推理系列最新模型o3-mini时,我们从中看到了一个熟悉的字眼:“Deep research”。这是否是国产之光“被follow”的开端尽管不好断言,但我们至少身体力行走出了一条“大力出奇迹”之外,另一条具有自主创新基因的制胜之道。

  正如梁文锋此前接受采访时所说,“中国要逐步成为贡献者,而不是一直‘搭便车’。”