跑分第一，推理暴跌 Claude Opus 4.7上线48小时口碑崩了-品论天涯网

Opus4.7发布48小时，口碑两极撕裂。官方榜单并列全球第一，逻辑推理公开测试却从94.7%暴跌到41.0%。token消耗涨了35%，旧接口直接报错，用户集体控诉“更贵、更蠢、更爱顶嘴”。Anthropic到底升级了什么，又搞砸了什么？Bgl品论天涯网

“4.6根本没法用，4.7的消耗速度像核反应堆一样。”Bgl品论天涯网

Opus4.7发布后，一位Reddit用户在Anthropic官方帖子下的留言。Bgl品论天涯网

不是玩梗，是真心话。Bgl品论天涯网

Bgl品论天涯网

一篇“ClaudeOpus4.7是严重倒退，不是升级”的Reddit帖子迅速冲上3000赞。Bgl品论天涯网

还有人晒出截图，说4.7连strawberry里有几个字母都答不对。Bgl品论天涯网

Bgl品论天涯网

更别说“擅改简历编造学历和姓氏”，回复用户“我懒得做交叉验证”，以及“三问就撞限额”这些网友热门槽点了。Bgl品论天涯网

《PragmaticEngineer》作者GergelyOrosz试用之后，形容这个模型“出人意料地带攻击性”，然后宣布放弃，换回了4.6。Bgl品论天涯网

Bgl品论天涯网

这边骂声还没散，那边一组数据却指向了相反的方向。Bgl品论天涯网

ArtificialAnalysis给Opus4.7的IntelligenceIndex打了57分，和GPT-5.4、Gemini3.1Pro并列全球第一。Bgl品论天涯网

创业者JeremyHoward形容它是“第一个真正懂我在工作时到底在做什么的模型”，YCombinatorCEOGarryTan正在拿它做项目。Bgl品论天涯网

还有网友说，ClaudeOpus4.7已实现通用人工智能（AGI）。Bgl品论天涯网

Bgl品论天涯网

同一个模型，有人看到了AGI的影子，有人觉得自己的工作流炸了。Bgl品论天涯网

上线两天，Opus4.7就把AI社区撕裂了。Bgl品论天涯网

用户为什么炸了？Bgl品论天涯网

拆开看，用户的怒火集中在三个点上，每一条都戳中了重度用户的命门。Bgl品论天涯网

第一，代码能力断崖式下滑。大量开发者反馈，从4.6升级到4.7之后，之前能稳定完成的编程任务开始频繁出错。Bgl品论天涯网

而且都是日常工作流里的核心操作：代码补全变迟钝，上下文理解出现退化，复杂逻辑链的推理明显变弱。Bgl品论天涯网

代码能力是Opus系列的王牌，现在王牌出了问题，反弹自然最猛。Bgl品论天涯网

一位Reddit用户说，他用一个已知答案的长重构任务做回归测试，结果模型自信地改挂了3个原本在4.6下能通过的测试，只能回滚。Bgl品论天涯网

Bgl品论天涯网

评论区涌入上百条类似经历。Bgl品论天涯网

第二，推理质量的倒退。Bgl品论天涯网

不是速度慢了那么简单，是思考深度出现了可感知的退化。以前能一步到位的复杂问题，现在需要反复追问、手动引导。Bgl品论天涯网

这个剧本AI行业并不陌生。去年GPT-4Turbo闹出的“降智”风波几乎一模一样：跑分提升了，体验却下来了。Bgl品论天涯网

第三，花更多钱，体验更差。Bgl品论天涯网

Opus本身就是Anthropic最贵的模型。Bgl品论天涯网

重度用户每月的API账单不是小数目。花了更多的钱、升了更新的版本、得到的却是更差的体验，愤怒就不只停在技术层面。Bgl品论天涯网

benchmark更强了Bgl品论天涯网

但用户不买账Bgl品论天涯网

面对反弹潮，Anthropic的回应速度不算慢。Bgl品论天涯网

Anthropic在官方迁移指南中指出，Opus4.7相比4.6存在若干行为变化，同时也强调，Opus4.7仍是其当前综合能力最强的通用可用模型，在长周期智能体任务、知识型工作、视觉任务和记忆任务方面表现尤为出色。Bgl品论天涯网

Bgl品论天涯网

ArtificialAnalysis的多维评测结果也摆在那里，Opus4.7在数学推理、多语言理解、长上下文处理，多个维度的得分创下新高。Bgl品论天涯网

Bgl品论天涯网

ArtificialAnalysis评测显示，Opus4.7（max）以57分并列榜首，与Gemini3.1ProPreview、GPT-5.4并列。Bgl品论天涯网

GitHub上的NYTConnectionsExtended基准测试也给出了顶级排名。Bgl品论天涯网

Anthropic的逻辑并不难理解：大模型迭代必然涉及能力再分配。有些维度提升了，有些维度就可能出现回退，这是工程上的取舍。Bgl品论天涯网

但用户不看这个，只看自己手里的活干不干得动。Bgl品论天涯网

价格没涨Bgl品论天涯网

但账单涨了Bgl品论天涯网

Anthropic没有调价，每百万token的单价和Opus4.6、4.5完全一样。Bgl品论天涯网

但官方迁移指南里写道：新分词器（tokenizer）在处理相同文本时，token用量大约可能达到原来的1.0倍到1.35倍。Bgl品论天涯网

Bgl品论天涯网

什么意思？你昨天用4.6跑一段prompt花10美元，今天换4.7跑同一段prompt，可能要花11到13.5美元。Bgl品论天涯网

单价没变，但同样的活儿吃掉了更多token。ClaudeCode创建者BorisCherny随后在X上表示：Bgl品论天涯网

Opus4.7消耗更多thinkingtoken，所以我们已为所有订阅用户提高了速率限制，来补偿这一点。Bgl品论天涯网

但具体提高了多少，没有公布。Bgl品论天涯网

Bgl品论天涯网

模型没蠢Bgl品论天涯网

但工作流炸了Bgl品论天涯网

如果你是Claude的重度开发者，4.7上线那天你可能遇到了这样的事情：Bgl品论天涯网

代码里写了thinking={"type":"enabled"，"budget_tokens":32000}，用来控制模型的思考预算。Bgl品论天涯网

在4.6上跑得好好的。换成4.7，直接返回400错误。没有弃用过渡期，没有兼容模式，直接报错。Bgl品论天涯网

官方迁移指南解释了替代方案：改用thinking={"type":"adaptive"}加上新的effort参数。Bgl品论天涯网

Bgl品论天涯网

但大多数开发者不会在模型发布当天去读迁移指南。Bgl品论天涯网

他们做的第一件事是把模型名从4.6换成4.7，然后发现一切都不工作了。Bgl品论天涯网

更隐蔽的变化是thinking内容现在默认隐藏。Bgl品论天涯网

4.6时代，模型的思考过程默认展示摘要版。到了4.7，默认变成“省略”。响应里的thinking区块看起来是空的。Bgl品论天涯网

但你仍然在为这些看不到的thinkingtoken全额付费。Bgl品论天涯网

Anthropic官方原话：省略只会降低延迟，不会降低成本。Bgl品论天涯网

这就像你点了一份套餐，服务员说“为了加快上菜速度，我们不给你看菜了，但你还是得付全款”。Bgl品论天涯网

“顶嘴”不是bugBgl品论天涯网

网友一个最强烈的吐槽，是说4.7变得“combative”（带攻击性）。Bgl品论天涯网

不少开发者反映，4.7会拒绝执行它认为有问题的指令，语气也比4.6硬了不止一个档次。Bgl品论天涯网

关于这个问题，Anthropic官方迁移指南里有一句很关键的话：Bgl品论天涯网

ClaudeOpus4.7会以更字面、更明确的方式理解提示词。Bgl品论天涯网

也就是说：4.6会“猜你的意思”，4.7会“照你说的做”。Bgl品论天涯网

如果你的prompt本来就写得含糊，4.6可以帮你脑补了，但4.7不会。对于一部分用户来说，这叫“不听话”，但对另一部分用户来说，这叫“终于不乱猜了”。Bgl品论天涯网

比如，Cursor设计师RyoLu却在用4.7做产品规划，认为这种精确执行正是他需要的。Bgl品论天涯网

因此，“顶嘴”这个标签背后，是Anthropic正在把Claude从一个“顺从的助手”改造成一个“更有主见的同事”。Bgl品论天涯网

据ArtificialAnalysis的公开评测，Opus4.7在GDPval-AA上拿到1753Elo，领先第二名79分。Bgl品论天涯网

GDPval-AA衡量的是模型在44种职业、9个主要行业的真实知识工作任务中的表现，在这个维度上，4.7碾压了所有对手，包括自己的前代4.6（1619Elo）。Bgl品论天涯网

同时，4.7的幻觉率比4.6下降了25个百分点，降到了36%。Bgl品论天涯网

它是怎么做到的？据ArtificialAnalysis的分析，主要是依靠“更频繁地选择不作答”，宁可说“我不知道”，也不瞎编。Bgl品论天涯网

这说明Anthropic的意图不在于优化Claude的聊天体验，而是在优化Claude的工作能力。Bgl品论天涯网

Bgl品论天涯网

Opus4.7在GDPval-AA上以1753Elo登顶，领先第二名79分。这项测试衡量的是AI在44种职业中独立完成知识工作的能力。Bgl品论天涯网

但对于用户来说，在一些场景下可能完全感受不到提升，反而先感受到了token变贵、接口报错和语气变硬。Bgl品论天涯网

94.7%暴跌到41.0%Bgl品论天涯网

如果上面三层问题都能归结为“迁移成本+使用习惯错位”，但还有一组数字没法用迁移成本解释。Bgl品论天涯网

GitHub上公开维护的NYTConnectionsExtended基准测试，使用940道《纽约时报》Connections谜题评估大语言模型的逻辑推理和抗干扰能力。Bgl品论天涯网

这个测试通过额外加入干扰词来提升难度，已经是社区公认的高难度benchmark之一。Bgl品论天涯网

Bgl品论天涯网

NYTConnectionsExtended排行榜。Opus4.6（highreasoning）得分94.7%，Opus4.7（highreasoning）仅41.0%，同一测试上出现断崖式暴跌。Bgl品论天涯网

结果是：Opus4.6（highreasoning）得分94.7%，Opus4.7（highreasoning）得分41.0%。Bgl品论天涯网

从年级第一，跌到不及格。Bgl品论天涯网

另一份数据来自Anthropic提供的Opus4.7SystemCard中100万token上下文的MRCRv2基准测试：4.6得分78.3%，4.7得分32.2%，下跌46个百分点。Bgl品论天涯网

Bgl品论天涯网

https://cdn.sanity.io/files/4zrzovbb/website/037f06850df7fbe871e206dad004c3db5fd50340.pdfBgl品论天涯网

这组数据方向与NYTConnections的结论一致：在某些逻辑推理和长上下文检索任务上，4.7确实出现了显著退步。Bgl品论天涯网

但也需要说清楚：这些是特定类型的测试。它们不能证明4.7“全面变蠢”，就像GDPval-AA的领先不能证明4.7“全面变强”一样。Bgl品论天涯网

用户耐心Bgl品论天涯网

开始倒计时Bgl品论天涯网

Opus4.7的争议不是个案。Bgl品论天涯网

OpenAI经历过GPT-4Turbo降智风波，几个月前撤下GPT-4o时也遭遇过类似的用户反弹。现在Reddit上已经出现了“哀悼”Claude4.5的帖子，满是自称“心碎”的粉丝。Bgl品论天涯网

Bgl品论天涯网

每一次模型升级，都有一批用户失去已经适应的工具。Bgl品论天涯网

新分词器让旧的成本预算失效；新的默认行为让旧的prompt不再好用；新的接口规范让旧的代码直接报错……Bgl品论天涯网

每一项单独看都有技术上的合理性，但叠在一起，就是把全部迁移成本一次性推给了用户。Bgl品论天涯网

为什么模型越来越聪明，用户越来越焦虑？因为每一次“更好”，都意味着推翻上一次的“刚好”。Bgl品论天涯网

Anthropic员工AlexAlbert在发布次日写道：Bgl品论天涯网

很多人在昨天刚开始体验Opus4.7时可能遇到的bug，现在都已经修复了。感谢大家的包容和耐心。Bgl品论天涯网

Bgl品论天涯网

bug可以修。但信任这种东西，消耗容易，重建很慢。Bgl品论天涯网

这轮AI军备竞赛的下一个瓶颈，也许不只是算力和数据，还要比谁能在快速迭代的同时，能不把自己的用户甩下车。Bgl品论天涯网

这次，Anthropic发布了迁移指南，但用户更想要的是一个承诺：升级不能把原有的工作流推倒重来。Bgl品论天涯网

当AI从玩具变成生产力工具，“快速迭代”就不再是无条件的优点。Bgl品论天涯网

Opus4.8会怎么来？Anthropic还没说。Bgl品论天涯网

但用户的耐心，已经开始倒计时了。Bgl品论天涯网