本文通过引入Python解释器和草稿纸等外部工具,有力地反驳了“模型思考是种幻觉”的论调,实验证明,此前大型推理模型(LRM)在复杂任务上的不佳表现是评测环境限制(如输出长度)造成的伪影;其最具启发性的反直觉发现是,工具增强不仅能让LRM的性能稳定超越标准LLM,甚至能以更低的Token消耗解决问题,揭示了模型“思考”的真正价值在于有效编排外部计算资源,而非内生的蛮力计算。
![]() |
创作新主题 |