中国AI闯入全球编程前二前面只剩Claude-品论天涯网

就在今天，CodeArena最新榜单出炉！Qwen3.7-Max以1541分闯入全球前四，一举超越了GPT-5.5、Gemini3.5Flash等一众顶尖模型。排在它前面的，只剩ClaudeOpus4.7和Opus4.6。FRL品论天涯网

FRL品论天涯网

换句话说，在全球编程模型的竞技场上，阿里是唯一杀进这张牌桌的中国厂商，仅次于Anthropic，位列第二。FRL品论天涯网

Qwen3.7-Max闯入全球前五FRL品论天涯网

唯一非Claude模型FRL品论天涯网

其实在CodeArena放榜之前，Qwen3.7-Max在海外开发者圈子里已经杀出了名声。FRL品论天涯网

AtomicChat做了一场硬碰硬的对比，让Opus4.7、GPT-5.5和Qwen3.7-Max同台竞技，任务是写一个能自我训练的俄罗斯方块AI。FRL品论天涯网

结果，Qwen3.7-Max不仅只用$1.32的token成本就把Opus4.7和GPT-5.5都超越了，而且性能还提升了56%。FRL品论天涯网

FRL品论天涯网

另一位海外开发者选择让Qwen3.7-Max构建了一个宇宙的3D模型，效果足以用震撼形容。FRL品论天涯网

FRL品论天涯网

在“3D像素风微缩宝塔模型”的生成任务中，Qwen3.7-Max的输出速度和质量同样全面胜出。FRL品论天涯网

FRL品论天涯网

左右FRL品论天涯网

开发者PaulCouvert更是盛赞，Qwen3.7-Max接入HermesAgent和OpenCode之后，基本可以替掉GPT-5.5和Opus4.7。FRL品论天涯网

FRL品论天涯网

编程，太能打了FRL品论天涯网

不过跑分再高，不如真刀真枪拉出来练练。FRL品论天涯网

我们给Qwen3.7-Max安排了一场硬核的“赛车游戏”挑战。FRL品论天涯网

一段详细的prompt丢进去，不一会儿功夫，Qwen3.7-Max直出一个可玩的HTML的文件。FRL品论天涯网

FRL品论天涯网

第一版有个小bug，A/D转向键左右搞反了。FRL品论天涯网

但经过第二轮简单对话微调，一个体验完整的3D赛车游戏就跑了起来。FRL品论天涯网

FRL品论天涯网

打开的瞬间，说实话，有点被惊到了。FRL品论天涯网

4车同台，3圈环形赛道竞速，赛道上散落着100多枚金币，碰到障碍物会减速、失控。FRL品论天涯网

赛后成绩面板，排名、用时、金币数、最快单圈，一项不缺。FRL品论天涯网

但真正让人意外的，是两个只有Qwen3.7-Max做到的细节。FRL品论天涯网

一个是开始界面。四个模型横向测完，只有它给游戏做了一个正经的开始页面，点“Start”才进入比赛。其他三家全是打开即跑，连个标题画面都没有。FRL品论天涯网

另一个是音效。prompt最后附了一条要求，加上发动机轰鸣和吃金币的音效。四个模型里，也只有它把这个bonus吃进去了，引擎声和金币叮咚都安排上了。FRL品论天涯网

FRL品论天涯网

再看看其他选手的表现。FRL品论天涯网

Gemini3.5Flash的画面明显单薄了一档，缺少那种呼之欲出的立体感。FRL品论天涯网

UI布局也有问题，仪表盘信息分散在屏幕四角，视觉焦点一盘散沙。FRL品论天涯网

相比之下，Qwen3.7-Max的处理方式是把关键指标集中到画面中央，更符合玩家视线的自然落点。FRL品论天涯网

FRL品论天涯网

ClaudeOpus4.6的效果，有点让人一言难尽了。FRL品论天涯网

不仅赛道上金币少得可怜，而且3辆AI赛车几乎同步行驶，毫无随机性，像复制粘贴出来的。FRL品论天涯网

最后是GPT-5.5。FRL品论天涯网

可以看到，画面质感确实比前两家强了不少，操作起来也更流畅。FRL品论天涯网

但不知道为什么，金币被做成了黄色的“甜甜圈”……FRL品论天涯网

造型倒是小事。关键是，Gemini、Claude、ChatGPT三家都修了好几轮bug才跑通全部功能。FRL品论天涯网

只有Qwen3.7-Max首轮生成就基本可玩。FRL品论天涯网

跑分接近，实测不虚，价格只有几分之一。剩下的结论，等开发者用脚投票就行了。FRL品论天涯网

Agent时代的“基座”模型FRL品论天涯网

Qwen3.7-Max之所以能在最卷的编程擂台上打出如此水平，答案就藏在它的产品定位里。FRL品论天涯网

几天前，阿里发布Qwen3.7-Max的时候，给了它一个非常特殊的标签：Agent基座模型。FRL品论天涯网

它生来，就是为长时间自主执行任务设计的模型。FRL品论天涯网

内测数据显示，在一次自主编程任务中，Qwen3.7-Max连续运行35个小时，执行1158次工具调用。FRL品论天涯网

最终生成的代码相较于Triton参考实现，达到了惊人的10倍几何平均加速。FRL品论天涯网

FRL品论天涯网

更令人震撼的是它的“持久战”能力——FRL品论天涯网

在推演进行到第30个小时之后，模型依然保持敏锐，持续挖掘出新的优化空间。FRL品论天涯网

全程零上下文退化、零指令漂移、零死循环！FRL品论天涯网

不得不说，这件事的难点不在1000次工具调用本身。MCP协议铺开之后，调1000次工具不算稀奇。FRL品论天涯网

难点在于，35小时的连贯推理。FRL品论天涯网

绝大多数模型跑长任务时会崩盘：要么上下文越积越乱，前半段定的目标到后面忘得干干净净；要么进入死循环，反复尝试同一个失败的方案。FRL品论天涯网

Qwen3.7-Max把“持续做对事”这件事，做出来了。FRL品论天涯网

核心技术揭秘FRL品论天涯网

Qwen3.7-Max这波编程跃升，我们理解核心可能与两个训练方法的升级有关。FRL品论天涯网

第一个是，环境扩展。FRL品论天涯网

Qwen3.7-Max在做编程训练时，每个任务会被拆成三个独立维度，任务本身、执行框架、验证方式，三者自由组合。FRL品论天涯网

同一道题，有时候在ClaudeCode的框架里做，有时候在OpenClaw里做，有时候换一种验证方式。FRL品论天涯网

效果就像一个实习生被轮岗到了所有项目组。它被迫学会的是解决问题的通用策略，不是“在某个特定框架里怎么取巧”。FRL品论天涯网

这解释了一个反直觉的现象，Qwen3.7-Max在ClaudeCode、OpenClaw、QwenCode这几个框架里的表现都很稳，没有出现“在自家框架里很强、换一个就拉胯”的情况。FRL品论天涯网

FRL品论天涯网

第二个升级是，长程自主执行。FRL品论天涯网

在训练中，团队引入了“动态累积生存博弈”框架。FRL品论天涯网

也就是，让模型在持续变化的模拟环境中做超过一千步的连续决策，自己建立假设、根据反馈调整策略，而且不能因为跑太久就“上下文腐化”。FRL品论天涯网

这里有一个直观的数据，YC-Bench模拟创业公司经营一整年，Qwen3.7-Max做到了208万美元营收，是上一代（105万）的两倍。FRL品论天涯网

更关键的是，它展现出了策略进化，中期遇到危机能自主调整方向，识别并拉黑恶意客户，最终收敛到稳定的执行循环。FRL品论天涯网

FRL品论天涯网

这就是35小时kernel优化案例的底层支撑，也是为什么在KernelBenchL3上，Qwen3.7-Max能让96%的场景跑出加速效果。FRL品论天涯网

而编程还只是第一个战场。这套长程推理加工具调用的底子，指向的是一个更大的野心——通用Agent基座。FRL品论天涯网

编程决赛，多了一个搅局者FRL品论天涯网

CodeArena上线至今，考的从来都是硬活，多步推理、工具编排、完整项目交付，全是Agent级的真刀真枪。FRL品论天涯网

今天，Qwen3.7-Max凭借着1541分的成绩楔进了第四的位置，卡在Opus4.6Thinking和Opus4.6之间。FRL品论天涯网

在这条Claude统治了大半年的赛道上，它给出了自己的回答，中国模型不只是追赶者，也可以是定义者。FRL品论天涯网

全球编程模型的竞赛，已经不再是硅谷的独角戏了。FRL品论天涯网

中国AI闯入全球编程前二 前面只剩Claude

中国AI闯入全球编程前二前面只剩Claude