社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Git

苹果炮轰AI推理遭打脸,GitHub大佬神怒怼!复杂任务≠推理能力

新智元 • 5 天前 • 33 次点击  



  新智元报道  

编辑:KingHZ
【新智元导读】最近,苹果再次发文指出LLM推理的根本缺陷。相关解读,一夜刷屏。然而,GitHub高级软件工程师怒不可遏,怒斥相关「流言」。

最近,苹果公司发表了预印本论文,指出推理大模型存在重大缺陷。

昨天,Ruben Hassid发布了相关解读的X帖子,认为这是项突破性研究:

苹果证明了Claude等AI推理模型,根本不会思考。

这种解读在社交平台上广泛传播,浏览量已超过1000万,且仍在持续增长。

但这种解读翻车了!

在Reddit和黑客新闻,网友纷纷表示论文争议太大。

左右滑动查看

GitHub高级工程师Sean Goedecke,对该论文持保留态度,尽管他也认为语言模型不是通往超级智能(ASI)的理想路径。

最直接的例证是:当用DeepSeek-V3测试时,模型直接拒绝了要执行上千步的谜题推演

——这并非推理能力崩溃,反而说明模型具备对自身能力边界的认知

值得注意的是,「深度学习三巨头」Yoshua Bengio的兄弟Samy Bengio也参与了这次的研究。

虽然Samy没有获得图灵奖,声望不及Yoshua,但其在谷歌学术上的引用次数已超过九万次,是Jeff Dean等知名学者的合作者。

这也不是苹果第一次指出LLM推理有问题,但这次在各大社交平台上得到了广泛传播。

左右滑动查看

那么苹果的新论文到底展示了什么?我们又该如何看待语言模型?

要理解这场争议的核心,我们先看看苹果论文到底说了什么。


苹果到底说了什么?

这篇论文开篇就提出,在数学和编程基准测试中,大家不要太在意推理模型的表现,因为:

  • (a)这些基准测试存在污染;

  • (b)在数学和编程任务上,无法运行高质量实验,因为这些任务缺乏简明的复杂度量标准。

因此,苹果的研究团队选择使用四种人工谜题(puzzle)环境(汉诺塔的变体),再次评估了推理模型,难度从最简单的单盘汉诺塔逐步上升到二十盘汉诺塔。

汉诺塔(Tower of Hanoi)是根据一个传说形成的数学问题:


有三根杆子A,B,C。A杆上有N个(N>1)穿孔圆盘,盘的尺寸由下到上依次变小。


要求按下列规则将所有圆盘移至C杆:

(1)每次只能移动一个圆盘;

(2)大盘不能叠在小盘上面。可将圆盘临时置于B杆,也可将从A杆移出的圆盘重新移回A杆,但都必须遵循上述两条规则。


问题为:应该以何种方式移动?最少要移动多少次?

例如,他们对比了非推理模型DeepSeek-V3与推理模型DeepSeek-R1:

这个对比模式在所有推理/非推理模型对、以及所有谜题任务中基本一致。

论文得出以下几个核心结论:

  • 对非常简单的谜题,非推理模型表现相当甚至更好,因为推理模型有时会「想太多」而导致错误。

  • 对中等难度的谜题,推理模型明显更强。

  • 一旦任务复杂度足够高,即使是推理模型也无法给出正确答案,不管你给它多长时间。

接下来,论文分析了推理模型的内部思维轨迹,验证了上述结论:

在简单问题中,正确答案几乎立刻出现;

在中等问题中,需要更多推理步骤;

而在最困难的问题中,则根本不会出现

论文还指出,随着问题复杂度增加,一旦模型无法解决问题,开始「躺平摸鱼」:

模型不会继续投入更多token来解题,而是直接「放弃」,停止推理。

最后,论文尝试直接将正确的谜题求解算法输入模型,期望这能提高其推理能力。

结果只是「有一点用」:部分模型可以多解出一个盘,但整体效果并不显著。

总结来看,该论文得出以下结论:

  1. 推理模型存在复杂度「天花板」,一旦超出,性能明显下降。

  2. 推理模型可能存在「内在计算扩展上限」,证据是:模型在达到一定复杂度时,会选择放弃。

  3. 推理模型不擅长计算性任务,因为即使将算法直接给它们,也没用。


这样理解:不对

对苹果的这篇论文,Sean Goedecke有三大质疑:

首先,汉诺塔这类谜题不是判断「推理能力」的好例子;

其次,推理模型的复杂性阈值,不一定是固定的;

最后,存在复杂度阈值≠模型「并不真正具备推理能力」。


谜题不是好例子

相比数学和编程,汉诺塔是一个更糟糕的推理测试案例。

如果担心数学和编程基准测试存在训练数据污染,那为何选择训练数据中存在解法的知名谜题?

这是Sean Goedecke对论文最主要的不满。

论文却得出结论「给模型提供解法,也没有提高效果」。

这件事让他感到惊讶:

汉诺塔算法在模型训练数据中反复出现。


所以,给模型算法帮助当然不大——


模型早已经知道算法是什么了!

另外,推理模型是有针对性地被训练用于数学和编程任务的,而不是用于谜题。

也许谜题在某种程度上可以代表推理能力,但也可能根本不相关。

从另一个角度,他完全可以相信:模型在处理数学题或写代码时具备更完善的内部工具链,而不具备用于谜题的工具

用谜题来测推理能力,等同于说「GPT-3.5之后,写彼特拉克式十四行诗没有明显进步,所以语言模型并没真正取得进展」。

彼得拉克式十四行,又称意大利十四行诗。诗标准意式十四行诗由14个十一音节诗行组成,分为前后两部分:前八行(octave)与后六行(sestet)

汉诺塔确实比数学问题更容易缩放复杂度,但正因为这个原因就选它,给人一种「路灯效应」的感觉

——不是因为它最好,而是因为它最方便

路灯效应,指人们倾向于只在最容易寻找的地方进行搜索

复杂度阈值未必固定

假设语言模型在超过一定复杂性点后确实会放弃,就像它们在超过十个盘子的汉诺塔时一样。

换言之,假设之前对谜题作为测试例子的质疑是错误的,而苹果的论文确实具有普适性。

那么,这是否意味着模型无法处理超出某一复杂度的问题?

Sean Goedecke将苹果论文中的一些提示词输入DeepSeek-R1,以下是简化版的推理轨迹开头:

好的,我需要解一个有10个盘的汉诺塔问题。


让我思考如何处理这个问题。我记得经典解法是递归步骤……


n个盘的标准解法需要2^n-1步。对于10个盘是1023步。但手动列出每一步几乎不可能。


所以我需要一种系统化方法来逐步列出每一步。让我回忆一下汉诺塔的迭代解法……

请注意,模型立即决定「手动生成所有这些步骤是不可能的」,因为这需要跟踪上千个步骤。

于是它开始寻找「聪明的捷径」,但最终失败。

这里的关键见解是,超过一定复杂性阈值后,模型决定有太多的步骤需要推理,于是开始寻找巧妙的捷径

模型所面对的任务其实已悄然转变:从「逐步推理完成」变为「发明一种能跳过推理的通用方案」

从测试来看,即使在较低的盘子数量下,DeepSeek-R1也会抱怨几句,说「这会很繁琐」,即使你明确要求它逐步列出解法。

这是可以理解的:推理模型是为推理而训练的,不是为执行数千次机械步骤而训练的。

那么,对于汉诺塔谜题来说,真的存在复杂性阈值吗?

实际上,大家并不知道模型是否能够坚持完成千步序列。

我们所知道的是,模型不想这样做

顺带一提,这也解释了一个「奇怪」的发现:

当问题变得更难时,模型使用的推理token反而减少。


因为任务如果只需几十步,它会积极推理;如果需要几百甚至上千步,它就选择放弃。

注意:Sean Goedecke没有访问其他推理模型轨迹的权限——

如果它们表现不同,那么他愿意承认在这个观点上他是错误的。

复杂任务失败≠0推理能力

假设到目前为止的一切都是错误的:

谜题真的是测试推理的好例子,推理模型真的有个固定的复杂性阈值。

这是否意味着模型不能推理?

当然,这并不意味着模型不能推理!

当然不是!

看到网络上的一些热评,Sean Goedecke情难自禁,简直要疯了。

多少人能真正坐下来,准确写出一千步的汉诺塔解法?

肯定有一些人可以,但也有很多人完全不行。

我们会因此说那些人「不具备推理能力」吗?

当然不会!

他们只是缺乏足够的耐心与专注,从而无法做到手动执行一千次算法而已。

即便只能推理到第十步,未能完成第十一步,也依然体现了推理能力。

能推理三步,也依然是推理,哪怕你无法看清第四步。

这也许不是「超人级」的推理,但绝对属于人类推理能力

严格说来,这对论文可能不太公平——

它本身并没有明确说模型「根本不能推理」(除非你把标题当真)。

然而,互联网上这么说的人太多了,所以他认为值得讨论一下。


总结

苹果的论文《思维的幻觉》,不是特别好。

Sean Goedecke的主要反对意见是,他不认为推理模型像论文暗示的那样不擅长这些谜题:

从我自己的测试来看,模型早早决定几百个算法步骤太多,甚至不值得尝试,所以它们拒绝开始。


你不能比较八盘汉诺塔和十盘汉诺塔,因为你比较的是「模型能否完成算法」和「模型能否想出一个避免完成算法的解决方案」。

更加一般性地,他不相信谜题是评估推理能力的好试验场,因为

(a)它们不是人工智能实验室的重点领域,

(b)它们需要像计算机一样遵循算法,而不是需要解决数学问题的那种推理。

Sean Goedecke认为,推理模型并非像论文暗示的那样不擅长这类谜题。

在他的测试中,模型在面对上百步算法时,往往主动放弃,而非能力崩溃。

他强调,放弃并不意味着无法推理——

就像人类在面对高度重复、枯燥任务时也可能选择中止。

这种行为更多体现的是认知边界,而非思维能力的缺失

因此,他不认同将「未完成复杂任务」等同于「不具备推理能力」的观点。

这篇论文并非一无是处,Sean Goedecke认为它有下列亮点:

  • 推理模型在简单问题上有时会「想太多」,表现不如非推理模型,这一点很有趣;

  • 模型在长算法执行过程中「放弃」的现象也很有意思,尽管它可能并不能很好地说明其普遍推理能力;

  • 他喜欢「问题三阶段」这一观点:简单、中等可推理、以及复杂到模型会放弃的阶段。如果某种模型可以被训练成「永不放弃」,那将非常有趣。

无论如何,苹果的研究提供了重要提醒:

当前语言模型的推理能力远非「通用智能」。

那么,该如何定义「推理」?

又如何测试「思维」?

这可能是下一代AI必须直面的核心问题。

参考资料:
https://www.seangoedecke.com/illusion-of-thinking/
https://www.linkedin.com/feed/update/urn:li:activity:7337332564367462400/
https://x.com/RubenHssd/status/1931389580105925115
https://www.reddit.com/r/MachineLearning/comments/1l5hzhs/r_apple_research_the_illusion_of_thinking/
https://news.ycombinator.com/item?id=44203562


图片


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/183050
 
33 次点击