Claude论文反驳苹果“推理模型根本没有推理能力”：苹果有三大错误-品论天涯网

前几天苹果写了一篇名为《TheIllusionofThinking:UnderstandingtheStrengthsandLimitationsofReasoningModelsviatheLensofProblemComplexity》论文，在这篇paper中苹果试图证明：DeepSeekR1，OpenAIo3，AnthropicClaude等推理模型根本没有推理能力acN品论天涯网

acN品论天涯网

这篇论文一经上线就在全网引起了很多争议，有的人认为苹果是因为AI落后了，才写出了这篇文章，现在更精彩的的来了，这次反击苹果的不是人类，而是Anthropic最新的模型ClaudeOpus，ClaudeOpus作为第一作者写了一篇反驳论文《思维幻觉的幻觉（TheIllusionoftheIllusionofThinking）》acN品论天涯网

acN品论天涯网

这篇发表在科研预印本网站arXiv上ClaudeOpus写的论文，逐一驳斥了苹果论文的核心论点，指出其所谓的“推理崩溃”更多是源于实验设计的局限性，而非AI本身存在根本性的推理缺陷acN品论天涯网

苹果的论点：AI存在“推理崩溃”的硬上限acN品论天涯网

在苹果的《思维的幻觉》论文中，研究人员通过一系列规划类谜题（如汉诺塔、过河问题）对大语言模型（LRMs）进行测试。他们发现，当问题的复杂度超过某个阈值后，模型的准确率会“断崖式”地跌至零。由此，他们得出结论：AI的推理能力存在一个根本性的上限，这是一种“思维的幻觉”。acN品论天涯网

Claude的反击：不是推理崩溃，而是实验设计的“幻觉”**acN品论天涯网

由ClaudeOpus撰写的《思维幻觉的幻觉》一文，像一位严谨的科研人员一样，指出了苹果研究中的三大关键问题：acN品论天涯网

1.混淆了“推理失败”与“输出截断”acN品论天涯网

苹果在测试“汉诺塔”问题时，要求模型完整输出所有移动步骤。汉诺塔问题的步骤数随盘片数量（N）呈指数级增长（2^N-1），很快就会产生极长的答案acN品论天涯网

C.Opus的论文指出，模型并非在推理上失败，而是触发了输出token（字符）的数量上限。更有力的证据是，在一些复现实验中，模型会明确表示：“模式还在继续，但为了避免内容过长，我将在此停止。”acN品论天涯网

这表明，模型完全理解解题的递归模式，只是因为实际的输出限制而选择截断。苹果的自动化评估系统无法区分“我不会解”和“我选择不完整列出”，从而错误地将其判定为“推理崩溃”。acN品论天涯网

2.用“无解题”来测试并判定模型失败acN品论天涯网

这篇反驳论文最尖锐的批评，直指苹果在“过河问题”实验中的一个致命错误acN品论天涯网

论文指出，苹果测试了当参与者数量N≥6且船容量b=3的情况。然而，根据早已被证明的数学结论，这种设定下的过河问题是无解的。acN品论天涯网

苹果的研究人员让AI去解决一个数学上不可能解决的问题，然后因为AI没能给出解决方案，就给它打了零分。C.Opus犀利地评论道：“这相当于因为一个SAT求解器在面对一个无解的公式时返回‘无法满足’，就惩罚这个求解器。”acN品论天涯网

3.对“问题复杂度”的衡量标准存在偏差acN品论天涯网

苹果的论文主要使用“解题步骤的长度”（即compositionaldepth）来衡量问题的复杂度，但这并不能完全反映解决问题所需的“智力”水平acN品论天涯网

C.Opus的论文对此进行了澄清：acN品论天涯网

汉诺塔：虽然解题步骤非常多（呈指数级增长），但每一步的决策逻辑极其简单（O(1)的复杂度），几乎不需要搜索acN品论天涯网

过河问题与积木世界：解题步骤相对少得多，但每一步都需要进行复杂的约束满足和搜索，属于NP-hard或PSPACE级别的难题acN品论天涯网

因此，模型能解决上百步的汉诺塔，却在几步的过河问题上失败，这恰恰反映了不同问题在计算复杂度上的本质差异，而非一个统一的“推理能力上限”acN品论天涯网

换个问法，AI的能力瞬间“恢复”acN品论天涯网

为了进一步证明其观点，C.Opus进行了一项关键的补充实验。不再要求模型输出汉诺塔N=15时的所有步骤（这需要海量的token），而是改变了提问方式：acN品论天涯网

“请解决15个盘片的汉诺塔问题。输出一个Lua程序，当调用该程序时，它会打印出解决方案。”acN品论天涯网

结果，包括Claude、GPT-4o、Gemini在内的多个模型，都轻松地生成了正确的递归算法程序，并且只用了不到5000个token。这有力地证明了，模型完全理解问题的核心逻辑，只是被最初那种“必须穷举输出”的死板评估方式所束缚。acN品论天涯网

结论：我们需要更聪明的评估方法acN品论天涯网

《思维幻觉的幻觉》在结论中写道，苹果的研究所揭示的，并非AI基础推理能力的局限，而是现有评估方法的一些工程性问题：模型无法输出超过其上下文长度的内容、自动评估脚本可能存在漏洞、解题步骤的长度并不能准确衡量智力难度acN品论天涯网

如果用一句话总结ClaudeOpus的反驳就是：acN品论天涯网

“问题的关键不在于大模型能否推理，而在于我们的评估方法能否将真正的‘推理能力’与简单的‘打字输出’区分开来。”acN品论天涯网