早在上月1月27日一早,DeepSeek在中国区和美国区苹果App Store免费榜上同时冲到了下载量第一,超过原先霸榜的ChatGPT,这也是国产应用首次实现这一成就。而半个月前(1月11日),DeepSeek的App才刚刚上线iOS和安卓的应用市场。
当天晚些时候,DeepSeek应用程序开始出现宕机。公司称其服务受到了大规模恶意攻击,因此将暂时限制新用户注册。当晚开盘的美国科技股则集体大跌——费城半导体指数(SOX)下跌9.2%,创下2020年3月以来的最大跌幅。其中英伟达股价下跌近17%,市值蒸发近6000亿美元,规模创美股史上最大。此外,博通、台积电、ASML、Google和微软也分别跌了17.4%、13%、7%、4%和2.14%。就连WTI原油盘中也一度下挫3%,因为有交易员认为,如果大模型的训练和推理不再需要那么多算力,那么数据中心的电力需求也会减少,自然也不需要那么多石油来发电。

DeepSeek称DeepSeek-R1模型在各项能力上追平OpenAI o1。
DeepSeek是一家位于杭州的大模型公司,2023年才创立。2024年年中之前,这家公司并没有引起市场多少关注。但2024年最后一个月,它密集发布了多个模型。其中圣诞节后发布的名为DeepSeek-V3(以下简称「V3」)的模型,宣称在性能上「相当于」业界领先的闭源模型GPT-4o与Claude-3.5-Sonnet,「优于」最好的开源模型Meta的Llama 3,且总训练成本仅为557.6万美元,这个数字只有(据估计投资超过5亿美元)前者的1%;临近2025年农历春节的1月20日,它又发布了一个名为DeepSeek-R1(以下简称「R1」)的模型,同样的,DeepSeek在论文中声称R1模型「在一系列任务上实现了与OpenAI o1相当的性能」。
1月29日,彭博社引述要求不具名的知情人士报道,称微软的安全研究人员在2024年秋季发现DeepSeek的员工使用OpenAI的API窃取了大量数据,言下之意是这些数据可能被用来训练V3或R1模型。然而OpenAI明确规定不允许其他公司使用其模型生成的数据训练模型,2023年年中,字节跳动就曾因类似行为与OpenAI发生摩擦。目前DeepSeek暂未对此言论发表回复。
麻烦不止于此,同日意大利当局要求 DeepSeek 提供有关该公司如何处理用户数据的信息,DeepSeek将有20天时间来准备答复,目前DeepSeek已从意大利地区苹果和Google的应用商店下架了应用。
外界对于DeepSeek仍存在大量质疑,比如其模型是否只是美国先进模型的蒸馏模型、其创新是否真的重要,以及美国科技股是否反应过度。这些问题DeepSeek其实在技术报告中基本都回答了。
1. DeepSeek引起的全球技术圈恐慌是如何形成的?
1月27日的市场震荡比DeepSeek在模型论文中发表的惊人数据晚了差不多一个月。直到一周前的2025达沃斯论坛上,虽然已有不少人谈起DeepSeek,但意见也多为保守或充满质疑的。比如DeepMind首席执行官Demis Hassabis就在达沃斯声称,DeepSeek的模型的确有些「出人意料」,但他表示「对DeepSeek模型的工作原理并不确定,包括它在多大程度上依赖其他美国公司模型的结果」。
在这种怀疑「V3是个蒸馏模型——蒸馏了美国的前沿模型」的观点之外,另外一种不愿相信DeepSeek成果的声音代表来自Scale AI的首席执行官Alexandr Wang。他在接受CNBC采访时声称,DeepSeek拥有5万块英伟达最先进的AI芯片H100,言下之意是DeepSeek违反了美国的芯片禁运政策,才取得了模型突破。由于芯片管制,2022年秋季起,英伟达就不再向中国市场提供其最高端的AI芯片H100,取而代之的产品是内存和带宽都更受限的H800——性能仅为H100的一半。
然而与此同时,Meta员工在匿名网站称,DeepSeek仅用1%的投入就实现了超越Llama 3的性能这件事,已经使公司AI团队陷入恐慌,特别是考虑到公司正在训练的下一代模型Llama 4的预期投入比Llama 3还要贵好几倍。技术媒体The Information紧接着报道称,Meta成立了4个专门研究小组来研究DeepSeek的工作原理,并基于此来改进Llama。在V3发布之前,Llama是全球能力最强的开源模型,直到V3发布后取而代之。
如果只有V3的效率,DeepSeek可能并不能引起足够注意。1月20日发布的R1模型为DeepSeek的热度添了重要的一把火——这是一个类o1的推理模型,并且即刻就能在应用程序中体验到。与ChatGPT等其他聊天机器人的不同之处在于,DeepSeek的同名聊天机器人在回应用户提问时,会将思维链条(Chain of Thought,CoT)完全展示出来,其作为机器人认真揣摩用户需求、试图将用户所有说出口或隐晦表达的情绪都安慰到位的「内心活动」激发了大量用户的热情。商业的本质在于创造稀缺,无论在人类成员还是AI成员中,共情能力都是稀缺品。

DeepSeek在自言自语时更有「人味」。
CoT是类o1模型都在发展的一项能力,人类差不多也是如此进行推理的。然而这类思考过程同时也是各人工智能公司想要保密的重要数据资产。如果你在ChatGPT中询问它的o1模型是如何思考的,几次之后,OpenAI可能就会发邮件给你警告要撤销你的账号了。
风险投资机构Andreessen Horowitz (a16z)的创始人安德森(Marc Andreessen)对R1的描述是「人工智能的Sputnik时刻」,Sputnik是苏联于1957年首次发射的人造卫星。另外一些人则称DeepSeek这一系列模型的发布是美国AI界的「珍珠港事件」。意思是作为全球人工智能领域的技术高地,美国正在失去自己所建构的AI商业模式和技术护城河。
2. DeepSeek-V3到底取得了怎样的突破?
DeepSeek的突破来自于两个层面:低成本和推理能力。其中,V3的突破主要在于训练成本和计算效率,R1开辟了训练推理模型的新路径。
具体来说,V3的采用了优于传统MoE(专家模型)架构的DeepSeekMoE架构,以及优于传统多头注意力(MHA)的DeepSeekMLA(多头潜在注意力)。
- DeepSeekMoE(Mixture of Experts,混合专家)
传统稠密模型,比如GPT-3.5,在训练和推理过程中激活全部参数。然而事实上,并非模型的每个部分都是当前任务所必需的。因此,MoE的理念是将模型区分为多个「专家」,推理时只激活对任务必要的专家。GPT-4也是一个MoE模型,据说有超过1.67万亿个参数,其中大部分参数分布在16个专家模块(如FFN层)中,每次完成特定任务时,大约一到两个专家会被激活,所以大大降低了计算量。DeepSeek的V3拥有6710亿参数,其中活跃专家中的参数总和为370亿。
DeepSeek在V3模型论文中称,相较于传统MoE,DeepSeekMoE使用了「更细粒度」的专家,使专家更加专门化,单个专家仅数十亿参数,提升了任务适配性;同时,DeepSeekMoE将一些专家隔离为「共享专家」,用于减轻专家之间的知识冗余,从而使V3模型在激活相同数量专家和参数的情况下表现更好。
- DeepSeekMLA(Multi-Head Latent Attention,多头潜在注意力)
多头注意力(Multi-Head Attention,MHA)是生成式AI计算的核心机制,它让模型可以同时关注用户输入的不同层面,并行处理这些不同维度的信息,再将其整合起来完成响应。。这一并行处理过程与图像处理中的并行计算类似,因此过去用于图形处理的GPU(Graphics Processing Unit)成了AI计算的理想硬件平台。
不过这一过程同时会产生大量缓存,限制了推理效率。DeepSeekMLA找到了一种对其中的缓存数据进行联合压缩的方法,从而大大减少推理期间的内存使用,保证高效推理。DeepSeek在论文中称,得益于这些创新,其V2模型(V3模型的上一代)在单节点搭载8块H800 GPU的情况下,实现了超过每秒5万个token的生成吞吐量,是上一代模型最大生成吞吐量的5.76倍。
- MTP(Multi-Token Prediction,多tokens预测)
传统大模型回答用户需求时只预测下一个token,V3通过MTP技术同时预测下2个token。这里的关键是第二个预测token的准确性问题(即「接受率」,预测的token能被最终采用的比例)。DeepSeek评估称,在不同生成主题中,其模型所生成的第二个token的接受率达到了85%至90%。这种高接受率意味着V3能够以接近传统单token预测模式两倍的速度来生成文本。
- FP8:低精度训练
FP8的意思是8位浮点(floating-point),数字越高,意味着计算精度越高,但与此同时计算速度会降低。DeepSeek使用了FP8数据格式来训练V3,并在模型计算的不同环节实现了数据在FP8、BF16、FP32等不同精度下的灵活和交替使用,即一种混合精度框架。在参数通信的部分过程,DeepSeek也做到了FP8精度的传输。通过这一过程,DeepSeek实现了加速训练和减少GPU内存使用,并「首次在超大规模模型上验证了FP8混合精度训练框架的有效性」。
DeepSeekMoE + DeepSeekMLA架构早在DeepSeek开发V2模型时期就已开拓,V2模型验证了这一组合可以在保持性能的前提下兼顾高效训练与推理,V3不过是在此基础上进行了多项改进。真正使得V3模型在能力上超越Llama 3的,是另一项创新——自我奖励。
- 后训练(post-training):自我奖励
在进行了不到两个月的预训练、花费了266.4万个GPU小时后,DeepSeek又用0.5万个GPU小时对V3进行了一种以「自我奖励」和蒸馏为主的后训练。
强化学习的典型案例是AlphaGo,通过为模型提供围棋规则,并告诉它怎样算是赢得比赛,然后模型就会自己找到满足这一切目标的路径。不过这种机器学习方式中的最大难题是如何设置奖励函数,数学、编程、围棋等推理能力要求高的领域通常具有明确的答案,边界分明,然而除此之外的其他生活领域却未必如此。OpenAI的o1模型发布之后,外界充满了对其究竟对强化学习过程设置奖励函数的好奇。OpenAI不再open后,DeepSeek在其论文中表明了它是如何给V3模型设置奖励函数的——直接将V3模型自身作为奖励生成模型,自己决定是否奖励自己。
DeepSeek将V3的判断能力与GPT-4 o和Claude-3.5的判断能力进行了比较,称V3的性能与GPT-4o-0806和Claude-3.5-Sonnet-1022的最佳版本相当,并且,V3的判断能力还可以通过投票技术来增强。因此,DeepSeek将V3的评价和多次投票结果作为「奖励函数」,为开放式问题提供自我奖励。

微信扫一扫 