
DeepSeek认为,有判断能力的基础模型本身就是足够好的奖励模型。
「LLM(大语言模型)本身就是一款多功能处理器,能够将来自不同场景的非结构化信息转化为奖励,最终促进LLMs的自我完善。」DeepSeek在发表V3模型的论文中称,意思是如果一个大模型足够优秀、有判断力,那么它应该像优秀的人类一样,足够用来对AI的回答作出评价。这一过程是V3模型超越Llama 3的关键。
3. 为什么DeepSeek做到了这种低成本,其他厂商尤其美国厂商没有做到?
「资源的诅咒」一词用在这个时候再合适不过了。相较于中国厂商,美国大模型公司们都有多得多的现金和算力为其大模型开发开路,英伟达也在不断推出算力更强大同时也更昂贵的芯片满足这些大厂的需要。大模型的Scaling Law(缩放定律)早就从模型本身向上延伸至了资金环节。不少大模型厂商——不止国内,都因预训练的昂贵在去年下半年退出游戏。
对那些资源丰富的大厂而言,阻力最小的方法是大肆招聘、支付高薪以及向英伟达支付高昂费用。而DeepSeek-V系列的几乎所有创新都与适应带宽受限的H800芯片有关。
4. DeepSeek-V3是个蒸馏模型吗?
V3的训练成本公布之后,外界对它的最大质疑就是它可能是个从其他先进模型那里蒸馏出来的模型。
在V3、R1模型的相关论文中,DeepSeek的确都在结尾强调了在蒸馏技术上的探索。比如在V3模型中,DeepSeek就使用了从DeepSeek-R1系列模型中提取的推理能力——R1作为教师模型生成了80万训练样本进行训练。「从DeepSeek R1系列模型中提取推理CoT(思维链),并将其纳入标准LLMs(大语言模型),特别是DeepSeek-V3。我们的流水线将R1的验证和反思模式优雅地整合到了DeepSeek-V3中,显着提高了其推理性能。」DeepSeek在论文中称。
除了将从R1系列模型中提取的80万思维链样本用以训练V3,DeepSeek还进一步探索了将这些数据应用于阿里巴巴旗下的Qwen2.5系列模型后的效果。DeepSeek在论文中称,经过这种后训练的Qwen系列模型(DeepSeek-R1-Distill-Qwen-7B和DeepSeek-R1-Distill-Qwen-32B)效果「明显优于之前的版本,并与o1-mini相当」。「我们证明了较大模型的推理模式可以被提取到较小的模型中」,DeepSeek称,这为大模型的「后训练」优化提供了一个有希望的新方向。
不过,这些尝试并不意味着DeepSeek的低成本模型V3本身是个蒸馏模型。根据其论文中的说法,V3的上一代模型V2使用了8.1万亿个token数据训练,V3模型的预训练数据扩展到了14.8万亿。论文显示,V3总共使用了约280万GPU小时(包括266.4万小时预训练、11.9万小时上下文长度训练和0.5万小时后训练),完成了约39.7亿亿次浮点运算。这个计算量与训练14.8万亿token的数据集的理论需求相符。也就是说,按照DeepSeek的DeepSeekMoE+DeepSeekMLA架构、用FP8的低精度训练和传输数据、一次预测多个token,DeepSeek的确可以做到不到600万美元的成本。这是个合理数字。
5. 相较于DeepSeek-V3,DeepSeek-R1进步在哪里?
V3模型和R1系列模型都是基于V3模型的更基础版本V3-Base开发的。相较于V3(类4o)模型,R1(类o1)系列模型进行了更多自我评估、自我奖励式的强化学习作为后训练。
在R1之前,业界大模型普遍依赖于RLHF(基于人类反馈的强化学习),这一强化学习模式使用了大量由人类撰写的高质量问答以了解「什么才是好的答案」,帮助模型在奖励不明确的情况下知道如何作困难的选择。正是这项技术的使用使得GPT-3进化成了更通人性的GPT-3.5,制造了2022年年底ChatGPT上线时的惊喜体验。不过,GPT的不再进步也意味着这一模式已经到达瓶颈。
R1系列模型放弃了RLHF中的HF(human feedback,人类反馈)部分,只留下纯粹的RL(强化学习)。在其首代版本R1-Zero中,DeepSeek相当激进地启动了如下强化学习过程:为模型设置两个奖励函数,一个用于奖励「结果正确」的答案(使用外部工具验证答案的最终正确性),另一个奖励「思考过程正确」的答案(通过一个小型验证模型评估推理步骤的逻辑连贯性);鼓励模型一次尝试几个不同的答案,然后根据两个奖励函数对它们进行评分。

DeepSeek称,R系列模型在强化学习中涌现出了「反思」能力。
DeepSeek发现,由此进入强化学习过程的R1-Zero生成的答案可读性较差,语言也常常中英混合,但随着训练时间增加,R1-Zero能不断「自我进化」,开始出现诸如「反思」这样的复杂行为,并探索解决问题的替代方法。这些行为都未曾被明确编程。
DeepSeek称,这种「啊哈时刻」出现在模型训练的中间阶段。在此阶段,DeepSeek-R1-Zero通过重新评估其初始方法来学习分配更多的思考时间。「这一刻彰显了强化学习的力量和美妙——只要提供正确的激励,模型会自主开发高级解决问题的策略。」DeepSeek称,经过数千个这样的「纯强化学习」步骤,DeepSeek-R1-Zero在推理基准测试中的性能就与OpenAI-o1-0912的性能相匹配了。
DeepSeek在论文中说,「这是第一个验证LLMs的推理能力可以纯粹通过RL(强化学习)来激励,而不需要SFT(supervised fine-tuning,基于监督的微调)的开放研究。」
不过,由于纯强化学习训练中模型过度聚焦答案正确性,忽视了语言流畅性等基础能力,导致生成文本中英混杂。为此DeepSeek又新增了冷启动阶段——用数千条链式思考(CoT)数据先微调V3-Base模型,这些数据包含规范的语言表达和多步推理示例,使模型初步掌握逻辑连贯的生成能力;再启动强化学习流程,生成了大约60万个推理相关的样本和大约20万个与推理无关的样本,将这80万个样本数据再次用于微调V3-Base后,就得到了R1——前面提到,DeepSeek还用这80万个以思维链为主的数据微调了阿里巴巴的Qwen系列开源模型,结果表明其推理能力也提升了。

微信扫一扫 