社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Git

历史分水岭:DeepSeek GitHub星数超越OpenAI!大佬揭秘仅用450美元训推理模型

硅星人Pro • 2 月前 • 125 次点击  

文章转载于新智元

就在刚刚,历史性的一刻出现了。

DeepSeek项目在GitHub平台上的Star数,已经超越了OpenAI。

热度最高的DeepSeek-V3,Star数如今已达7.7万。

图片做出这一发现的网友们,第一时间截下了图

可以说,这是开源AI历史上的一个里程碑!

而DeepSeek-R1,更是仅用了3周时间,就超越了「openai-cookbook」。

前有App Store登顶,今有GitHub超越,网友们高呼:永远不要低估开源社区的力量!

如今,DeepSeek的势头越来越猛。

相信大家都发现,DeepSeek的服务器简直要爆了。

图片

甚至就在昨天,DeepSeek还不得不官宣:暂停API充值。

原因当然就是因为,用户的热情实在太火爆,服务器真扛不住了。

图片

最近,关于DeepSeek的一些流传甚广的说法,也纷纷有专家辟谣了。

1

澄清一:DeepSeek绕过了CUDA架构

其中一个广为流传的说法是DeepSeek绕过了CUDA。

图片

这源于DeepSeek的论文中提到,模型采用了PTX编程,通过这样的定制优化,让模型能更好地释放底层硬件的性能。

图片「我们采用定制的PTX(并行线程执行)指令并自动调整通信块大小,这大大减少了L2缓存的使用和对其他SM的干扰」

严谨来说,DeepSeek通过编写PTX解决了跨芯片通信瓶颈,虽然复杂,但降低了开销、提升了效率。

本质上,PTX仍然是位于CUDA驱动层内部的一个组件,是英伟达CUDA编程模型的一部分,能将CUDA源代码(C/C++)转变为机器指令的一个中间阶段。

在运行时,PTX会进一步被编译成在GPU上运行的最终机器码(SASS)。

图片

而DeepSeek团队的聪明之处就在于,用这种方法能更好地实现对底层硬件的编程和调用。

这种主动优化,无论在H800还是H100上都能提高通信互联效率。

因此,DeepSeek仍然没有摆脱CUDA生态。

1

澄清二:R1的训练成本,绝不仅仅是600万美元!

而关于DeepSeek-R1的另一个谣言,就是R1的训练成本大约是600万美元。

图片之所以有这个说法,来源于DeepSeek-V3论文中的相关论述

开发者大神Sebastian指出,很多人都混淆了DeepSeek-V3和DeepSeek-R1。(前者要早1个月)

其中,DeepSeek-V3中宣称的550万美元,是基于GPU成本、GPU小时数、数据集规模和模型规模等估算出来的。

但DeepSeek团队从没公开过R1确切的GPU小时数或开发成本,目前已有的任何成本估算都只是猜测。

图片

除此之外,Stability AI前研究总监Tanishq Mathew Abraham也在最近的博文中指出,R1在V3基础上进行的强化学习,以及最终训练前团队的大量的小规模实验和消融研究都未包含在内。

更何况还有研究者的薪资,据传已经跟OpenAI、Anthropic等顶级机构的薪资相当(高达100万美元)。

1

V3和R1,开启推理模型大变局

DeepSeek V3和R1发布后,将怎样搅动此后的LLM江湖?

预算紧张的情况下,怎么开发推理模型?

最近,机器学习大神Sebastian Raschka的这篇长篇博文,为我们做出了硬核预测,并且破除了不少民间对DeepSeek的误解。

图片

Sebastian表示,很多人都来询问自己对DeepSeek-R1的看法。

在他看来,这是一项了不起的成就。

作为一名研究工程师,他非常欣赏那份详细的研究报告,它让自己对方法论有了更深入的了解。

最令人着迷的收获之一,就是推理如何从纯强化学习行为中产生。

甚至,DeepSeek是在MIT许可下开源模型的,比Meta的Llama模型限制更少,令人印象深刻。

在本文中,Sebastian介绍了构建推理模型的四种方法,来提升LLM的推理能力。

图片

图中总结了DeepSeek R1的训练流程。

图片

(1)DeepSeek-R1-Zero:该模型基于2024年12月发布的DeepSeek-V3。研究团队采用RL进行训练,并使用了两种奖励类型。这种方式称为冷启动训练,因为它没有采用RLHF中的SFT步骤。

(2)DeepSeek-R1:这是DeepSeek的旗舰推理模型,构建于DeepSeek-R1-Zero基础上。团队通过额外的SFT阶段和进一步的RL训练,对模型进行了优化。

(3)DeepSeek-R1-Distill:利用前述步骤中生成的SFT数据,团队对Qwen和Llama模型进行了微调,以增强它们的推理能力。尽管不是传统意义上的蒸馏,但该过程是用DeepSeek-R1的输出,来训练较小的模型(Llama 8B和70B,Qwen 1.5B–30B)。

1

构建推理模型的四种方法

推理时扩展

想要提升LLM的推理能力,或者是其他任何能力,有一种方法叫推理时扩展,就是在推理过程中增加计算资源,让输出的结果质量更高。

人类在解决复杂问题时,如果思考时间更充裕,往往能给出更好的答案。

有一种推理时扩展的简单方法,是巧妙的运用提示工程。思维链(CoT)提示法是一个经典例子,在处理复杂问题时,通常能得到更准确的结果。

图片

另一种推理时扩展的方法是使用投票和搜索策略。

一个简单的例子是多数投票方法,让LLM生成多个答案,然后通过投票选出正确答案。

同样,也可以使用束搜索(beam search)和其他搜索算法来生成更好的响应。

图片

推测OpenAI的o1和o3模型使用了推理时扩展。此外,o1和o3可能还运用了与DeepSeek R1类似的RL流程来训练。

纯强化学习(RL)

DeepSeek R1论文中的一个亮点是,推理行为可以通过纯强化学习(RL)产生。

通常在RL训练之前,会先进行SFT,但DeepSeek-R1-Zero完全通过RL训练,没有初始的SFT阶段。

图片

DeepSeek-R1-Zero的一个关键区别是它跳过了SFT阶段。

在奖励机制上,DeepSeek没有采用基于人类偏好的奖励模型,而是采用了准确性奖励和格式奖励。

- 准确性奖励,是用LeetCode编译器来验证编程答案,并用确定性系统评估数学回答。

- 格式奖励,则靠LLM评判器,保证回答符合预期格式,比如把推理步骤放在标签里。

让人意外的是,靠这种方法,LLM就能发展出基本的推理能力。

研究人员观察到「顿悟时刻」:模型开始在回答中生成推理过程,即使没有专门训练它这么做。

图片

尽管R1-Zero并不是性能最优的推理模型,但它通过生成中间的思考步骤展示了推理能力。这证明用纯强化学习(RL)开发推理模型是可行的。

监督微调和强化学习(SFT+RL)

旗舰模型DeepSeek-R1通过结合额外的SFT和RL,提升了模型的推理表现。

在RL之前进行SFT是常见的做法,标准的RLHF流程就是如此。OpenAI的o1模型很可能也是用类似方法开发的。

图片

如图所示,团队用DeepSeek-R1-Zero生成了冷启动SFT数据。通过指令微调训练模型,接着又进行了一轮RL。

在这一轮RL中,保留了DeepSeek-R1-Zero的准确性奖励和格式奖励,还新增了一致性奖励,来避免语言混杂。

RL结束后,又开始新一轮SFT数据收集。在这个阶段,用最新的模型生成了60万条CoT SFT示例,同时用DeepSeek-V3基础模型创建了另外20万条SFT示例。

上述样本随后被用于另一轮RL训练。在这个阶段,对于数学和编程问题,还是用基于规则的方法进行准确性奖励。对于其他类型的问题,则用人类偏好标签来评判。

经过多轮训练,DeepSeek-R1的性能有了显著提升。

图片

纯监督微调(SFT)和蒸馏

到目前为止,已经介绍了三种用于改进LLM推理能力的方法,最后是模型「蒸馏」。

这里「蒸馏」是指用较大LLM生成的数据集对较小的LLM(如Llama 8B和70B以及Qwen 2.5模型,范围从0.5B到32B)进行指令微调。

实际上,这个蒸馏过程中的SFT数据集,和之前用来训练DeepSeek-R1的数据集是一样的。

图片

为什么开发蒸馏模型?可能有两个关键原因:

1  较小的模型更高效。小模型运行成本更低,还能在配置较低的硬件上运行。对研究人员来说很有吸引力。

2  纯SFT的案例研究。这些模型展示了在没有RL的情况下,单纯靠SFT能把模型优化到什么程度。

图片

团队将DeepSeek-R1-Zero中的纯RL方法直接应用于Qwen-32B。

结果表明,对于较小的模型,蒸馏远比纯RL更有效。

仅靠RL可能不足以让小模型具备强大的推理能力,在高质量推理数据上进行SFT,或许是对小模型更有效的策略。

图片

接下来一个有趣的方向是把RL+SFT和推理时扩展结合起来,OpenAI的o1很有可能是这样做的,只不过它可能基于一个比DeepSeek-R1更弱的基础模型。

1

R1和o1相比如何?

Sebastian认为,DeepSeek-R1和OpenAI o1大致在同一水平。

不过引人注目的一点是,DeepSeek-R1在推理时间上更高效。

这就揭示了二者的区别:DeepSeek可能在训练过程中投入了更多,而OpenAI更依赖于o1的推理时扩展。

而很难直接比较两个模型的难点,就在于OpenAI并没有披露太多关于o1的信息。

现在关于o1,还有很多未解之谜。

比如,o1也是一个MoE吗?它究竟有多大?

或许,o1只是GPT-4o的一个略微改进版本,加上最小量的强化学习和微调,仅在推理时进行大规模scaling?

图片

不了解这些细节,是很难直接比较的。

1

预算只有几十万美元,能开发推理模型吗

不过,想开发一个DeepSeek-R1这样的推理模型,哪怕是基于开放权重的基础模型,也可能需要几十万美元甚至更多资金。

这对预算有限的研究人员或工程师来说,实在是望而却步。

好消息是:蒸馏能开辟新路径!

模型蒸馏提供了一个更具成本效益的替代方案。

DeepSeek团队的R1蒸馏模型证明了这一点,尽管这些模型比DeepSeek-R1小得多,推理表现却强得惊人。

不过,这种方法也不是完全没有成本。他们的蒸馏过程用了80万条SFT样本,这需要大量的计算资源。

有趣的是,就在DeepSeek-R1发布的前几天,关于Sky-T1的文章中,一个团队用1.7万条SFT样本,就训练出了一个32B参数的开放权重模型。

总成本仅有450美元,甚至比大多数人AI会议的注册费还低。

Sky-T1的表现和o1大致相当,考虑到它的训练成本,着实令人惊叹。

图片项目链接:https://novasky-ai.github.io/posts/sky-t1/

预算有限的纯强化学习:TinyZero

TinyZero是3B参数的模型,它借鉴了DeepSeek-R1-Zero的方法,其训练成本不到30美元。

令人意外的是,尽管只有3B参数,TinyZero仍展现出一些突现的自我验证能力,这证明了小模型通过纯RL也能产生推理能力。

图片

这两个项目表明,即使预算有限,也可以进行有趣的推理模型研究。

两者都借鉴了DeepSeek-R1的方法,一种聚焦于纯RL(TinyZero),另一种聚焦于纯SFT(Sky-T1)。

超越传统SFT:旅程学习

旅程学习被视作捷径学习的替代方案。捷径学习是传统的指令微调方法,模型仅通过正确的解题路径来训练。

旅程学习不仅包括正确的解题路径,还包括错误的解题路径,让模型从错误中学习。

这种方法和TinyZero在纯RL训练中展现的自我验证能力有相通之处,不过它完全依靠SFT来优化模型。让模型接触错误推理路径及修正过程。

旅程学习或许有助于加强自我纠错能力,提升推理模型的可靠性。

图片论文链接:https://arxiv.org/abs/2410.18982

这一方向对于未来的研究极具吸引力,特别是在低预算的推理模型开发场景中,RL方法可能由于计算成本过高而难以落地。

当前在推理模型领域正有诸多有趣的研究,Sebastian充满期待地表示:相信在未来几个月,还会看到更多令人兴奋的成果!

参考资料:
https://magazine.sebastianraschka.com/p/understanding-reasoning-llms
https://www.tanishq.ai/blog/posts/deepseek-delusions.html

点个爱心,再走

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/178865
 
125 次点击