GPT-5真“降智”了但重现“神之一手”剑指代码王座-品论天涯网

GPT-5智商测试，仅拿下了70分？全网狂吐槽“降智”背后的真相，竟是“路由”决定了模型的智能。想要解锁神级GPT-5，秘诀在于prompt。这不，医学家借助GPT-5重现了“神之一手”时刻。hE7品论天涯网

hE7品论天涯网

GPT-5发布72小时后，一张IQ测试结果震惊了全网。hE7品论天涯网

在门萨IQ测试中，GPT-5拿下了118分，离线测试70分；GPT-5Thinking则分别获得了85分和57分。hE7品论天涯网

hE7品论天涯网

这一结果，创OpenAI模型家族IQ测试有史以来的最低纪录。hE7品论天涯网

实际上，这背后的实际原因，归咎于“路由”问题。hE7品论天涯网

hE7品论天涯网

并非是GPT-5太笨了，而是作为一个“单体模型”，其中一个组件决定了它的智能。hE7品论天涯网

hE7品论天涯网

类似的问题，奥特曼也曾在RedditAMA问答中做出了回应。hE7品论天涯网

他表示，内部出现了严重故障（Sev级），自动切换系统无法工作，导致GPT-5表现得像降智一样。hE7品论天涯网

hE7品论天涯网

METR的最新报告中，可以看出GPT-5依旧处于帕累托前沿，智能呈指数级增长并未放缓。hE7品论天涯网

hE7品论天涯网

也就是说，GPT-5还在延续ScalingLaw的神话。hE7品论天涯网

GPT-5很强，关键在于prompthE7品论天涯网

那些一味地吐槽GPT-5的网友们，实际上并未发掘出最新模型的潜力。hE7品论天涯网

Cline人工智能主管表示，核心在于一个人的想法、品味，以及沟通方式。hE7品论天涯网

对于那些具备系统思维的用户而言，GPT-5堪称革命性工具。只要肯花时间：构建完整思维框架，制定明确需求规格向模型清晰阐述。hE7品论天涯网

由此，它就能自主精准执行，全程无需人工纠偏。hE7品论天涯网

hE7品论天涯网

无独有偶，NYT畅销书作者MarkManson也表示，所有人都在用错误的方式与GPT-5对话，关键在于掌握主动权。hE7品论天涯网

这样，让它知道你可不是好糊弄的，才会给出完美答案。hE7品论天涯网

hE7品论天涯网

举个栗子，你想要问“blueberry”有几个b，并恐吓它“答不对小心Bambi妈妈找你算账”。hE7品论天涯网

此时，GPT-5根本不会犯错。hE7品论天涯网

hE7品论天涯网

再比如，网友们吵翻的GPT-5连一个简单方程式都不会解，实际诀窍也在提示上。hE7品论天涯网

当提示变成“thinkharderandsolve”时，就可以得出正确的解。hE7品论天涯网

hE7品论天涯网

怎样提示才算有效？有网友曝出了GPT-5系统提示，堪称一座金矿。hE7品论天涯网

hE7品论天涯网

“神之一手”时刻hE7品论天涯网

在医学领域，GPT-5已经可以媲美人类专家了。hE7品论天涯网

生物医学家DeryaUnutmaz在体验GPT-5之后，深刻感受到了AlphaGo的“第37步”时刻。hE7品论天涯网

hE7品论天涯网

事情是这样的，两年前，Derya的实验室开展了一系列前沿免疫学实验，旨在调控T细胞的能量代谢。hE7品论天涯网

这种免疫细胞对癌症免疫治疗、慢性病和自身免疫疾病都有重大影响。hE7品论天涯网

当时，他们获得了一个令人惊艳的结果，但有个发现始终无法解释。hE7品论天涯网

团队为此折腾了好几周，也只得到部分答案。hE7品论天涯网

基于这些实验，Derya将未发表的数据图上传给GPT-5Pro去分析，结果令人大吃一惊。hE7品论天涯网

hE7品论天涯网

GPT-5仅凭如上一张图表，就准确识别出关键发现，并提供了实验方案的建议。hE7品论天涯网

最不可思议的是，它提出的机制最终解释了全部结果。hE7品论天涯网

DeryaUnutmaz表示，这简直就是AI领域的“神之一手”的时刻。这一过程证明了，GPT-5已成为顶尖专家和真正的科研伙伴，能提供深刻洞见。hE7品论天涯网

OpenAI携GPT-5剑指Anthropic王座hE7品论天涯网

GPT-5虽还不是AGI，但其强大的编程能力，已经吸引了更多开发者。hE7品论天涯网

另外，其全新的个性化选项和减少的“幻觉”现象，则可能为免费版ChatGPT吸引更多日常用户。hE7品论天涯网

hE7品论天涯网

这无疑是向Anthropic发出的挑战书。hE7品论天涯网

之所以这样说，原因在于：编写代码的最强AI模型，一般公认为Anthropic的Claude模型。hE7品论天涯网

因此，OpenAI发布新模型时，极力强调GPT-5在编程方面的强大能力hE7品论天涯网

GPT-5是我们迄今为止最强大的编程模型。在复杂前端生成和调试大型代码库方面，GPT-5表现尤为突出。hE7品论天涯网

只需一个提示，它就能直观且优雅地创造出美观、响应式的网站、应用程序和游戏，将想法转化为现实。hE7品论天涯网

意图非常明显。hE7品论天涯网

在新闻发布会上，奥特曼表示，新模型不仅擅长编码，还能将软件项目从想法一步转化为可用代码。hE7品论天涯网

hE7品论天涯网

GPT-5生成的各种程序hE7品论天涯网

AI初创公司MagicPath的首席执行官PietroSchirano称GPT-5是目前最出色的编程模型，是一个“绝佳的合作者”。他表示：hE7品论天涯网

这就像电力进入千家万户，是一个“前所未有”的变革时刻，它将彻底改变我们的开发方式。hE7品论天涯网

hE7品论天涯网

在长达一小时的直播中，OpenAI大部分时间都在展示GPT-5的编程能力，包括演示一系列基准测试结果.hE7品论天涯网

hE7品论天涯网

Cursor、Vercel和JetBrains等还分享了GPT-5的早期测试的评价。hE7品论天涯网

“AI编程”神器Cursor的首席执行官MichaelTruell夸其为“使用过的最智能的编码模型”：hE7品论天涯网

团队发现，GPT-5不仅表现出色、易于引导，还展现出其他模型未曾有过的独特个性。hE7品论天涯网

它不仅能捕捉到难以察觉的深层错误，还能运行长时间、多轮次的后台AI智能体，完成复杂任务——这些任务往往让其他模型无从下手。hE7品论天涯网

Vercel的创始人、首席执行官GuillermoRauch，认为“GPT-5是最好的前端AI模型”：hE7品论天涯网

我们在v0.dev上使用时的初步印象是，它是最好的前端AI模型，在美学感和代码质量上均达到顶尖表现，堪称独一无二。hE7品论天涯网

它在复杂计算机科学与艺术感的交汇处表现出色，标志着从过去简单的代码补全到如今跨设备、跨屏幕的全栈应用的飞跃时刻。hE7品论天涯网

hE7品论天涯网

IDE传统巨头JetBrains的首席执行官KirillSkrygan，表示“GPT-5颠覆了编程”:hE7品论天涯网

GPT-5对编码领域来说是一个革命性的突破。作为默认模型，它使JetBrainsAIAssistant和编码智能体Junie的性能和质量提升了超过1.5倍。hE7品论天涯网

在我们的新无代码平台Kineto上，GPT-5将设计、前端以及应用整体体验的端到端质量提升了一倍。hE7品论天涯网

hE7品论天涯网

从数据上看，Anthropic的营收增长主要得益于其强大的编程能力。hE7品论天涯网

据TheInformation报道，Anthropic的年营收已接近50亿美元，高于本月初的40亿美元，这反映出它作为程序员和编程应用首选的地位。hE7品论天涯网

与此同时，OpenAI的年营收目前为120亿美元，这个数字则反映了其更广泛的业务和更大的规模。hE7品论天涯网

未来，是智能体式推理hE7品论天涯网

GPT-5发布之后，OpenAI首席研究官MarkChen和总裁GregBrockman一同在TBPN最新采访中，谈论了最新模型一些研发爆点。hE7品论天涯网

MarkChen最先提到了，GPT-5的训练关键在于合成数据。hE7品论天涯网

它的成功意味着，完全突破了互联网数据枯竭的限制，并且在核心领域实现更全面的知识覆盖。hE7品论天涯网

hE7品论天涯网

OpenAI当前在做的，是将世界引向“智能体式推理”的时代，GPT-5是这一转变的关键。hE7品论天涯网

通过更快、更智能的模型减少用户干预，让AI无缝地融入日常和专业使用中。hE7品论天涯网

Mark强调，OpenAI多年来致力于推理模型，但以往接口笨拙，如在GPT-4和o1之间切换。hE7品论天涯网

如今，GPT-5通过速度优化，实现了无缝整合，让用户无需等待长推理过程。hE7品论天涯网

他详细举例说道，以往模型如o1在所有任务上提供更好答案，但太慢。GPT-5结合了推理和非推理能力，成为“一站式商店”（one-stopshop）。hE7品论天涯网

尤其是，后训练团队的贡献，让模型在编码等领域成为“怪物”。hE7品论天涯网

当被问及模型命名时，Mark笑称数字命名“疯狂”，但确实奏效了。hE7品论天涯网

他表示，GPT-5在创意协作、软件工程方面的能力，确实超越了GPT-4.5，而且更快、更便宜。hE7品论天涯网

GPT-5像给ChatGPT“一台电脑”，包括PythonREPL、浏览器。模型能零样本学习新工具，这一过程就像人类体验新工具一样。hE7品论天涯网

在部分需要创造性的任务中，GPT-5能够给出惊喜的解法。下一步的目标是，将LLM能力提升到“理论框架”层面，提出新假设、辅助科研创新。
hE7品论天涯网

多线并行，随时发货hE7品论天涯网

在OpenAI内部，团队会在不同时间尺度上运作：从探索想法到转化，再到旗舰模型发布。hE7品论天涯网

不仅是单一技术的突破，而是多轴进步。hE7品论天涯网

Mark将其描述成“探索与执行”的pipeline，强调了公司模型快速迭代的能力。hE7品论天涯网

我们给它空间去成长，一旦准备好，就直接发货。hE7品论天涯网

目前，OpenAI模型以算法优化为主，同时吸收了硬件和推理架构改进的成果，并借鉴开源社区在推理加速上的经验。hE7品论天涯网

最后，他还提到了ChatGPT处理了全球约71%的大模型查询，并提供了独特的使用数据洞察。hE7品论天涯网

Mark表示，不只依赖DUA或点赞数据，就是为了避免“迎合性”偏差，而要挖掘隐性行为信号，指导模型去改进。hE7品论天涯网

GPT-5已是AI“自我迭代”hE7品论天涯网

GregBrockman经历了GPT-1到GPT-5的每一次发布，总结了每个版本给他的感受：hE7品论天涯网

GPT-1：用公开数据训练Transformer，证明“预训练有用”。hE7品论天涯网

GPT-2：第一次觉得“生成的东西挺酷”，有独角兽故事。hE7品论天涯网

GPT-3：刚好跨过“有人愿意用”的门槛，但可靠性差。hE7品论天涯网

GPT-4：真正具备现实可用性，开始能写代码、做健康问答。hE7品论天涯网

GPT-5：在可靠性、实用性、代码能力上设定了全新标准，软件工程将被彻底变革。hE7品论天涯网

2019年底，GPT-3出来了。OpenAI意识到必须打造一个产品，才能继续推进使命，筹集资金。hE7品论天涯网

他们决定打造API，让别人自己去探索用途。hE7品论天涯网

2020年年初，GregBrockman的团队四处奔波，试图找到愿意尝试API的客户。hE7品论天涯网

到2020年中，OpenAI才把API推向市场，而ChatGPT是2022年11月才发布。hE7品论天涯网

当时，OpenAI考虑把ChatGPT叫“ChatwithGPT-3.5”。ChatGPT还有个前身产品叫WebGPT，也是基于GPT-3.5。整个2022年，OpenAI基本上是在付钱让人用ChatGPT的前身：用户不会付钱给OpenAI，OpenAI得付钱给他们用。hE7品论天涯网

什么时候意识到ChatGPT会爆？hE7品论天涯网

对GregBrockman来说，真正触动他的时刻是完成GPT-4训练的时候。hE7品论天涯网

那是2022年8月8日，OpenAI完成了GPT-4的初步后训练。虽然有一堆bug，但创造力特别惊人，真的非常有趣。hE7品论天涯网

OpenAI花了大约一年半的时间，才让模型的创意写作能力达到当初那个有bug的版本的水平。hE7品论天涯网

那一刻OpenAI意识到，这个模型不仅能完成特定任务的后训练，还能泛化，表现出智能行为，即使没有直接针对这点训练。这显然是个杀手级应用。hE7品论天涯网

于是把原计划的GPT-4API发布推迟，先把ChatGPT做出来，2022年11月上线。hE7品论天涯网

回头看，GPT-3.5其实已经是当时社会没见过的“可用模型”，只是在OpenAI眼里全是缺点。hE7品论天涯网

而GPT-3.5引发了OpenAI的商业范式革命：从“付费请人测试”到“用户主动订阅”的根本性转变。hE7品论天涯网

BenThompson称OpenAI为“意外诞生的消费级公司”：ChatGPT发布后72小时内突破百万用户，形成现象级需求。hE7品论天涯网

很多人在事后说，OpenAI一开始就旨在证明“Scaling”是AI进步的关键，但其实几乎是反过来的：Scaling是他们尝试了很多无效方法后，唯一奏效的东西。hE7品论天涯网

而现在OpenAI已经看到AI模型正在协助创造下一代模型，并能监督那些对人类来说过于复杂的工作。hE7品论天涯网

GregBrockman表示：我们不应该为了美观而刻意优化CoT（思考链），也不用强迫模型隐藏其推理过程，应该让它们自由地展示自己的“想法”。hE7品论天涯网

GregBrockman曾提到，随着模型能力的提升，它们不仅能完成简单的任务，还能胜任一些复杂的、人类难以把控的工作。hE7品论天涯网

这种“可扩展的监督”概念，正是为了解决这一挑战而提出的：利用强大的AI模型来为复杂任务提供可靠的反馈和监督，或者通过“批评模型”协助人类专家，从而更轻松地进行监督。这确保了即使AI系统变得更加智能、更复杂，它们也能与人类价值观保持一致，并得到安全的管理。hE7品论天涯网

参考资料：hE7品论天涯网

https://www.axios.com/2025/08/08/openai-aims-gpt-5-at-anthropics-coding-crownhE7品论天涯网

https://x.com/thealexbanks/status/1953867094648385990hE7品论天涯网

https://x.com/slow_developer/status/1954097563981812149hE7品论天涯网

https://x.com/tbpn/status/1954249389796651184hE7品论天涯网

https://www.youtube.com/watch?v=gaImbWPGgtUhE7品论天涯网

GPT-5真“降智”了 但重现“神之一手”剑指代码王座

GPT-5真“降智”了但重现“神之一手”剑指代码王座