社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  chatgpt

DeepSeek效应初现:Grok-3补刀ChatGPT,OpenAI已在ICU?

新智元 • 3 月前 • 144 次点击  



  新智元报道  

编辑:KingHZ
【新智元导读】DeepSeek和xAI相继用R1和Grok-3证明:预训练Scaling L aw不是OpenAI的护城河。将来95%的算力将用在推理,而不是现在的训练和推理各50%。OpenAI前途不明,生死难料!
语言模型竞技场LM Arena,新的「全能冠军」诞生了!

这次是「地球上最聪明的AI」——Grok 3。

Grok 3证明了Scaling Law的确有效,OpenAI技术护城河被攻破!

此前,DeepSeek证明不用Scaling Law也能达到OpenAI o1水平。

真是「一根筋,两头堵」:无论Scaling Law有用没用,OpenAI的技术「窗户纸」被捅破了。

这不得不怀疑OpenAI到底行不行?OpenAI的盈利模式有可持续性吗?xAI+DeepSeek又能带来什么?

Atreides Management的管理合伙人和首席投资官Gavin S. Baker,分享了自己对AI竞争的见解。

OpenAI时代结束

从2022年夏季到2024年春季,OpenAI在GPT-4上领先,直到谷歌和Anthropic追上了GPT-4。

OpenAI是首个积极采用传统「Scaling Law」进行预训练的公司,享受了大约7个季度的主导地位。

首次实现o1推理只带来了几个月的优势。

如今,DeepSeek、谷歌和xAI与OpenAI大致处于同一水平,其中xAI可能稍占优势。

谷歌和xAI预计很快会凭借其更好的基础模型,显著超越o3。

因此,OpenAI迫切需要推出GPT-5,作为未来「o5」推理模型的基础。

奥特曼都承认,OpenAI未来的领先优势将会缩小。

而微软CEO纳德拉则明确表示,在模型能力上,OpenAI一度拥有独特的优势,而这一即将结束

OpenAI没有独门秘籍
谷歌和xAI都拥有独特且有价值的数据源,这些数据源使它们逐渐区别于DeepSeek、OpenAI和Anthropic。

如果Meta在模型能力方面赶上,也会如此。

Gavin S. Baker认为:没有访问独特且有价值数据的顶级AI模型,是有史以来贬值最快的资产。

蒸馏只会加剧这一现象。

微软似乎也认同这一观点:选择了不再给OpenAI投入1600亿美元进行预训练,并取消了传闻中的数据中心建设。

如果没有访问YouTube、X、TeslaVision、Instagram和Facebook等独有数据,未来的尖端模型可能不会有投资回报(ROI)。

从这个角度看,扎克伯格的战略似乎更加合理。

最终,独有的数据可能是唯一能够带来差异化,并对预训练万亿甚至千万亿级别参数模型的投资回报的基础。

OpenAI难以一家独大

经济学家Ethan Mollick,则认为AI的确进入了新时代,OpenAI时代落幕了。

左图是训练Scaling Law,也就就是说模型规模越大,性能越强。训练更大的模型需要增加计算能力、数据和能源的使用量。

通常,需要将计算能力增加10倍以获得性能的线性增长。计算能力以FLOPs(浮点运算)衡量,这是计算机执行的基本数学运算的数量,如加法或乘法。

右图是推理Scaling Law,也就就是说模型思考越久,它表现越好。

如果让模型花更多计算能力去处理问题,就能得到更好的结果——

就像给聪明人几分钟额外时间来解决谜题一样。

这称之为测试时或推理时计算

第二个规模法则诞生了推理模型(Reasoner)。

在需要时,第三代模型都将作为Reasoners运行,因为有两个优势:更大的训练规模,以及在解决问题时具有可扩展性。

这两个Scaling Law正在极大地提升AI的数学能力,并且还在增加其他方面的能力。

如果有一个大型、智能的AI模型,就可以用它来创建更小、更快、更便宜的模型,这些模型的智能程度虽然不如母模型,但仍然相当高。

即使是小型模型,但加入了推理能力,它们会变得更加智能。这意味着AI的能力在提升,而成本却在下降。

下图展示了这一趋势的迅速发展,y轴上表示AI的能力,x轴上表示成本的对数下降。

GPT-4刚发布时,每百token大约需要50美元(大约相当于一个单词)。

而现在使用比比原始GPT-4更强大的Gemini 1.5 Flash,每百万token的成本大约只有12美分,成本下降了99%+。

GPQA是一系列非常难的多项选择题,旨在测试高级知识。拥有互联网访问权限的博士在其专业领域外的正确率为34%,在其专业领域内的正确率为81%。每百万token的成本是使用模型的成本(Gemini Flash Thinking的成本是估算的)。

OpenAI内忧外患

Gavin S. Baker认为微软之所以不给OpenAI提供1600亿美元的预训练资金,就是因为AI的预训练是前期成本,并不能带来利润。
相反,微软将提供OpenAI推理服务来赚钱。

The information估计软银今年将在OpenAI产品上投入超过20亿美元,约占OpenAI收入的20%。25-30年,OpenAI在算力上的花费为3200亿美元。2027年现金消耗达200亿美元。

而在2023年,纳德拉一度公开表示无法想象没有AI的生活,要全力押注AI。

现在微软和OpenAI的裂痕在持续加大。最近,纳德拉的采访更是被解读为微软与OpenAI不和,引起股价下跌。

去年,微软就表示将非OpenAI的模型接入到Copilot中。

在未来某个时刻,微软甚至可能使用开源模型来支持Copilot。

Copilot已有多家AI供应商

除了最大的外部合作伙伴,一些高管和重要员工也纷纷另立门户。

前CTO,Mira Murati,与OpenAI的老同事联合创立了Thinking Machines Lab,目标是AI研究和产品。


前首席科学家,Ilya Sutskever,创立了Safe Superintelligence,目标是AI安全。


创始员工,Andrej Karpathy,两度加入OpenAI,最后选择离开,创立Eureka Labs,主营业务为AI教育。


副总裁,Dario Amodei,创立Anthropic,最近刚刚推出了AI模型Claude 3.7 Sonnet。


更不要提,马斯克还在法院提起诉讼,竭力阻止奥特曼将OpenAI转为非营利公司。

AI的收入来自推理

如果Scaling Law还有效,训练数据决定了未来大模型的投资回报,那么只有2到3家公司,会进行尖端模型的预训练。

只要少数几个巨型数据中心,就足以让它们进行所需的连续集群预训练。

其余的AI计算只需要一些较小的数据中心,这些数据中心经过地理优化,从而实现了低延迟和/或高成本效益的推理。

Gavin S. Baker认为:「经济高效的推理 = 更便宜、质量较低的电力」。

现在,全世界有6-10家公司会预训练尖端模型,但到那时,一切将截然不同。

请注意,推理模型的计算量非常大。测试时的计算意味着计算就是智能。

因此,与2023-2024年整个市场的「以预训练为中心」相比,这种情况所需的计算量可能还要大。

这和目前的算力分布,完全不同:

不再是预训练和推理各占50%的情况。


而可能变成预训练只占5%,推理占95%


很多硬件将针对推理进行优化,而很少针对预训练优化。

卓越的基础设施将至关重要。

所有这些都没有考虑到设备上(on-device)推理和/或完全量化的影响。

而超级智能(ASI)的经济效益,本质上是未知的。

Gavin S. Baker希望它们很高,但一个拥有140智商的模型,在设备上运行并访问关于世界的独特数据,对于大多数用例来说可能已经足够。

ASI(超级智能)并不需要用来预订旅行等任务。

到2030年,推理成本(即运行AI模型的成本)预计将超过训练成本,因此OpenAI需要一个长期可持续的解决方案。

如果Stargate项目未能提供与微软云服务相同的稳定性和效率,这可能会带来重大风险。

时间会证明一切。

DeepSeek效应


即便是DeepSeek梁文峰公开表示,业内对DeepSeek-R1反应过度。他表示这只是一次一般的普通的创新,世界每天都有类似这样的创新。

不妨假设一下,DeepSeek来自美国中西部某个实验室。

比如,某个计算机科学实验室买不起最新的英伟达芯片,只能使用旧硬件。

但他们有一个很棒的算法和系统部门,用几百万美元训练了一个模型:

瞧,这个模型与o1大致相当。看,我们找到了一个新的训练方法,我们优化了很多算法!

每个人都像「哦哇」一样开始尝试同样的方法,然后欢呼:这是AI进步的一周!

美国股市也不会因此蒸发一万亿美元。

DeepSeek的确在大模型训练上,取得了一些创新。但和其他从业人员一样研究同样的问题。

不仅如此,他们还发表了论文,并开源了模型。

在开源AI界,甚至出现了用最经济的方法,复刻DeepSeek-R1「顿悟时刻」的竞赛。

这一切就像是2004年的谷歌。

在2004年,谷歌在上市招股书S-1文件中,向世界透露他们使用分布式算法,在计算机网络中将商品连接在一起,实现了最佳的性价比,从而构建了最大的超级计算机集群。

谷歌S-1文件链接:https://www.sec.gov/Archives/edgar/data/1288776/000119312504073639/ds1.htm

这与当时其他所有科技公司都不同,它们只是购买越来越大的大型机。

为了跟上不断上升的交易量,一些大公司会从甲骨文购买越来越大的数据库服务器。

谷歌的S-1描述了如何能够超越大型机的可伸缩性限制。

后来,谷歌发表了MapReduce和BigTable论文,描述了用于管理和控制这个成本效益更高、功能更强大的超级计算机的算法。

谷歌在取得如此巨大成功之后,并没有马上发表论文,公开他们的做法。

相比之下,在与模型发布的同时,DeepSeek发表了论文。

DeepSeek的发展轨迹,与2004年谷歌展示自己的能力并没有什么本质不同。

竞争对手仍然需要调整并实际去做这件事,但DeepSeek推动了这一领域的发展。

认为英伟达、OpenAI、Meta、微软、谷歌等公司已经完蛋了,这种想法也没什么理由

当然,DeepSeek是一个新的、强大的新兴公司,但AI领域不是每周都会出现这样的情况吗?

每个人都会在几个月内复制这一成就,一切都会变得更便宜。

唯一的真正后果是,AI乌托邦/末日现在比以往任何时候都要近。

参考资料:
https://x.com/GavinSBaker/status/1893348988386189774
https://x.com/SumitGup/status/1893709368480117096
https://www.oneusefulthing.org/p/a-new-generation-of-ais-claude-37
https://x.com/yishan/status/1884101107368223113



Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/179599
 
144 次点击