人工智能

Claude论文反驳苹果“推理模型根本没有推理能力”:苹果有三大错误

字号+作者:AI寒武纪 来源:AI寒武纪 2025-06-15 10:15 评论(创建话题) 收藏成功收藏本文

前几天苹果写了一篇名为《TheIllusionofThinking:UnderstandingtheStrengthsandLimitationsofReasoningModelsviatheLensofProblemComplexity》论文,在'...

前几天苹果写了一篇名为《TheIllusionofThinking:UnderstandingtheStrengthsandLimitationsofReasoningModelsviatheLensofProblemComplexity》论文,在这篇paper中苹果试图证明:DeepSeekR1,OpenAIo3,AnthropicClaude等推理模型根本没有推理能力EVu品论天涯网


EVu品论天涯网


EVu品论天涯网

这篇论文一经上线就在全网引起了很多争议,有的人认为苹果是因为AI落后了,才写出了这篇文章,现在更精彩的的来了,这次反击苹果的不是人类,而是Anthropic最新的模型ClaudeOpus,ClaudeOpus作为第一作者写了一篇反驳论文《思维幻觉的幻觉(TheIllusionoftheIllusionofThinking)》EVu品论天涯网


EVu品论天涯网

这篇发表在科研预印本网站arXiv上ClaudeOpus写的论文,逐一驳斥了苹果论文的核心论点,指出其所谓的“推理崩溃”更多是源于实验设计的局限性,而非AI本身存在根本性的推理缺陷EVu品论天涯网

苹果的论点:AI存在“推理崩溃”的硬上限EVu品论天涯网

在苹果的《思维的幻觉》论文中,研究人员通过一系列规划类谜题(如汉诺塔、过河问题)对大语言模型(LRMs)进行测试。他们发现,当问题的复杂度超过某个阈值后,模型的准确率会“断崖式”地跌至零。由此,他们得出结论:AI的推理能力存在一个根本性的上限,这是一种“思维的幻觉”。EVu品论天涯网

Claude的反击:不是推理崩溃,而是实验设计的“幻觉”**EVu品论天涯网

由ClaudeOpus撰写的《思维幻觉的幻觉》一文,像一位严谨的科研人员一样,指出了苹果研究中的三大关键问题:EVu品论天涯网

1.混淆了“推理失败”与“输出截断”EVu品论天涯网

苹果在测试“汉诺塔”问题时,要求模型完整输出所有移动步骤。汉诺塔问题的步骤数随盘片数量(N)呈指数级增长(2^N-1),很快就会产生极长的答案EVu品论天涯网

C.Opus的论文指出,模型并非在推理上失败,而是触发了输出token(字符)的数量上限。更有力的证据是,在一些复现实验中,模型会明确表示:“模式还在继续,但为了避免内容过长,我将在此停止。”EVu品论天涯网

这表明,模型完全理解解题的递归模式,只是因为实际的输出限制而选择截断。苹果的自动化评估系统无法区分“我不会解”和“我选择不完整列出”,从而错误地将其判定为“推理崩溃”。EVu品论天涯网

2.用“无解题”来测试并判定模型失败EVu品论天涯网

这篇反驳论文最尖锐的批评,直指苹果在“过河问题”实验中的一个致命错误EVu品论天涯网

论文指出,苹果测试了当参与者数量N≥6且船容量b=3的情况。然而,根据早已被证明的数学结论,这种设定下的过河问题是无解的。EVu品论天涯网

苹果的研究人员让AI去解决一个数学上不可能解决的问题,然后因为AI没能给出解决方案,就给它打了零分。C.Opus犀利地评论道:“这相当于因为一个SAT求解器在面对一个无解的公式时返回‘无法满足’,就惩罚这个求解器。”EVu品论天涯网

3.对“问题复杂度”的衡量标准存在偏差EVu品论天涯网

苹果的论文主要使用“解题步骤的长度”(即compositionaldepth)来衡量问题的复杂度,但这并不能完全反映解决问题所需的“智力”水平EVu品论天涯网

C.Opus的论文对此进行了澄清:EVu品论天涯网

汉诺塔:虽然解题步骤非常多(呈指数级增长),但每一步的决策逻辑极其简单(O(1)的复杂度),几乎不需要搜索EVu品论天涯网

过河问题与积木世界:解题步骤相对少得多,但每一步都需要进行复杂的约束满足和搜索,属于NP-hard或PSPACE级别的难题EVu品论天涯网

因此,模型能解决上百步的汉诺塔,却在几步的过河问题上失败,这恰恰反映了不同问题在计算复杂度上的本质差异,而非一个统一的“推理能力上限”EVu品论天涯网

换个问法,AI的能力瞬间“恢复”EVu品论天涯网

为了进一步证明其观点,C.Opus进行了一项关键的补充实验。不再要求模型输出汉诺塔N=15时的所有步骤(这需要海量的token),而是改变了提问方式:EVu品论天涯网

“请解决15个盘片的汉诺塔问题。输出一个Lua程序,当调用该程序时,它会打印出解决方案。”EVu品论天涯网

结果,包括Claude、GPT-4o、Gemini在内的多个模型,都轻松地生成了正确的递归算法程序,并且只用了不到5000个token。这有力地证明了,模型完全理解问题的核心逻辑,只是被最初那种“必须穷举输出”的死板评估方式所束缚。EVu品论天涯网

结论:我们需要更聪明的评估方法EVu品论天涯网

《思维幻觉的幻觉》在结论中写道,苹果的研究所揭示的,并非AI基础推理能力的局限,而是现有评估方法的一些工程性问题:模型无法输出超过其上下文长度的内容、自动评估脚本可能存在漏洞、解题步骤的长度并不能准确衡量智力难度EVu品论天涯网

如果用一句话总结ClaudeOpus的反驳就是:EVu品论天涯网

“问题的关键不在于大模型能否推理,而在于我们的评估方法能否将真正的‘推理能力’与简单的‘打字输出’区分开来。”EVu品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]