突然爆火全网！超越ChatGPT登顶，引发热议的东方“神秘力量”，究竟是啥？

今天，“DeepSeek”登上了热搜第一。

几乎是一夜之间，“来自东方的神秘力量”又一次震撼海外人士心脏。1月27日，DeepSeek应用登顶苹果美国地区应用商店免费APP下载排行榜，在美区下载榜上超越了ChatGPT。

同日，苹果中国区应用商店免费榜显示，DeepSeek成为中国区第一。

冯骥：“震撼的突破”

1月26日，游戏科学创始人、CEO，《黑神话：悟空》制作人冯骥评价DeepSeek：可能是个国运级别的科技成果。

冯骥表示：“希望DeepSeek R1会让你对当前最先进的AI祛魅，让AI逐渐变成你生活中的水和电。太幸运了！太开心了！这样震撼的突破，来自一个纯粹的中国公司。知识与信息平权，至此又往前迈出了坚实的一步。”

DeepSeek是啥？

DeepSeek，全称杭州深度求索人工智能基础技术研究有限公司，成立于2023年7月17日，是一家创新型科技公司，专注于开发先进的大语言模型（LLM）和相关技术。

去年12月DeepSeek-V3发布后，AI数据服务公司Scale AI创始人Alexander Wang就发帖称，DeepSeek-V3是中国科技界带给美国的苦涩教训。“当美国休息时，中国（科技界）在工作，以更低的成本、更快的速度和更强的实力赶上。”

不到一个月之后，今年1月20日，DeepSeek正式开源R1推理模型。

据DeepSeek介绍，其最新发布的模型DeepSeek-R1在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。在数学、代码、自然语言推理等任务上，性能比肩OpenAI o1正式版。

这一模型发布后，引发了海外AI圈众多科技大佬的讨论。例如，英伟达高级研究科学家Jim Fan就在个人社交平台上公开发表推文表示：“我们正身处这样一个历史时刻：一家非美国公司正在延续OpenAI最初的使命——通过真正开放的前沿研究赋能全人类。看似不合常理，但最有趣的结局往往最可能成真。”

DeepSeek写春联图源：证券时报

为什么DeepSeek能出圈？

在硅谷，DeepSeek很早就被称作“来自东方的神秘力量”，也是网上热议的“杭州六小龙”之一。

真正让DeepSeek火出圈的是2024年12月26日，这家公司宣布上线并同步开源的 DeepSeek-V3模型，并公布了长达53页的训练和技术细节。

它以1/11的算力、仅2000个GPU芯片训练出性能超越GPT-4o的大模型。其总训练成本只有557.6万美元，而GPT-4o的约为1亿美元，使用25000个GPU芯片。双方的成本至少是10倍的差距。

在性能上，DeepSeek-V3在数学、代码能力和中文知识问答方面还超过了ChatGPT-4o。

国外独立测评机构Artificial Analysis测试后，发出了“超越了迄今为止所有开源模型”的惊叹；Meta科学家田渊栋感慨：“这是非常伟大的工作。”

“性价比”是商业社会中的制胜法宝之一，DeepSeek也因创新的模型架构和史无前例的性价比被称为“大模型界的拼多多”，引发字节、阿里、百度等大厂的大模型价格大战。

与DeepSeek-V3低成本训练一样令人惊叹的是DeepSeek的员工规模。

在团队配置上， DeepSeek团队只有139名研发人员，相比OpenAI拥有1200名研究人员，团队规模是DeepSeek的近乎9倍之多。

其中，算子、推理框架、多模态等研发工程师以及深度学习方面的研究人员共有约70人。比如前段时间的热门话题“雷军千万年薪挖95后天才AI少女”，这位“95后AI天才少女”罗福莉，就是DeepSeek开源大模型DeepSeek-V2的关键开发者之一。

OpenAI前政策主管、Anthropic联合创始人Jack Clark曾这样评价DeepSeek：“雇用了一批高深莫测的奇才”，还认为中国制造的大模型，“将和无人机、电动汽车一样，成为不容忽视的力量。”

2025年1月20日下午，中共中央政治局常委、国务院总理李强主持召开专家、企业家和教科文卫体等领域代表座谈会，听取对《政府工作报告（征求意见稿）》的意见建议。

在此次座谈会上，共有9人先后发言，其中就有深度求索（DeepSeek）创始人梁文锋。

梁文锋是谁？

低调的梁文锋是个80后，出生在广东的一个五线城市，父亲是一名小学老师。他毕业于浙江大学，主修软件工程，人工智能方向。

17岁时，梁文锋考入浙大，读的是电子工程系人工智能方向，毕业后在浙大攻读硕士研究生，论文题目是《基于低成本PTZ摄像机的目标跟踪算法研究》。

2015年，30岁的梁文锋和朋友一起创办了杭州幻方科技有限公司，立志成为世界顶级的量化对冲基金。2016年10月，幻方量化推出第一个AI模型，第一份由深度学习生成的交易仓位上线执行。到2017年底，几乎所有的量化策略都采用AI模型计算。

2023年5月，38岁的梁文锋宣布做通用人工智能（AGI）。7月，他正式创办杭州深度求索人工智能基础技术研究有限公司，就是DeepSeek公司，专注于AI大模型的研究和开发，公司设在杭州。

有同事评价梁文锋：完全不像一个老板，而更像一个极客。因为作为老板，他本人每天都在写代码、跑代码，学习能力惊人。

从公开的工作经历和职业生涯来看，梁文锋在量化投资和高性能计算领域具有深厚的背景和丰富的经验，创业范畴横跨金融和人工智能领域。

“两天两崩” DeepSeek回应

26日，DeepSeek出现了短时闪崩现象。不少网友反映，使用时遇到 “服务器繁忙” 的提示。对此，DeepSeek回应称，当天下午确实出现了局部服务波动，但问题在数分钟内就得到了解决。此次事件可能是由于新模型发布后，用户访问量激增，服务器一时无法满足大量用户的并发需求。不过，官方状态页并未将这一事件标记为事故。

今天也有消息称DeepSeek服务状态页面显示，DeepSeek网页/API不可用，目前正在调查该问题。对于DeepSeek如何看待“两天两崩”，DeepSeek回复称，技术服务的稳定性受多重因素影响，可能涉及突发流量、系统升级适配或底层基础设施的临时波动等。我们的团队始终将稳定性作为首要任务，并会在每次事件后彻底分析原因，持续优化系统韧性。

来源：橙柿互动·都市快报
编辑：顾小娟
责编：张浩
审核：胡钊钦