凌晨1点,OpenAI发布了GPT-5-Codex从名字也能看出来,这是针对智能体编程任务进行了专门优化的GPT-5。OpenAI博客介绍说,GPT-5-Codex的训练重点放在真实的软件工程任务上。它既能在短时间的交互式会话中快速响应,也能独立完成冗长复杂的任务。它的代码审查(codereview)能力可以在代码上线前发现关键漏洞。
GPT-5-Codex已经在Codex的所有使用场景中上线,包括CodexCLI、IDE扩展、网页端、移动设备以及GitHub中的代码审查。它是云端任务和代码审查的默认模型,开发者也可以通过CodexCLI或IDE插件,在本地任务中选择使用它。顺带一提:Codex已包含在ChatGPT的Plus、Pro、Business、Edu和Enterprise订阅中。
发布两个半小时后,OpenAICEO山姆・奥特曼激动地表示GPT-5-Codex的流量已经占到了Codex流量的40%左右,并且他预计该模型在今天之内就将成为Codex的流量主体。
OpenAI表示:“自从4月推出CodexCLI、5月推出CodexWeb以来,Codex已逐步演变成更高效的编程助手。两周前,我们把Codex整合成一个统一的产品体验,并与ChatGPT账号打通。这样,你可以无缝切换本地环境和云端任务,不会丢失上下文。”
该模型一发布就收获了诸多好评,甚至有人表示这是“自切片面包发明以来最好的东西”。
OpenAI已经以附录形式将GPT-5-Codex加入了GPT-5系统卡。
地址:https://openai.com/index/gpt-5-system-card-addendum-gpt-5-codex/
下面我们就来更详细地了解一下GPT‑5-Codex。
GPT‑5-Codex
GPT-5-Codex重点优化了在真实工程场景中的自主式(agentic)软件工程能力
它接受过完整项目构建、功能开发、测试编写、调试、大规模重构和代码审查等复杂任务的训练。相比GPT-5,它更易于控制,遵循AGENTS.md的指令更好,代码质量更高。OpenAI表示:“你只需要告诉它想要什么,而不用写冗长的风格说明。”
其在SWE-benchVerified(软件工程)和Coderefactoringtasks(代码重构)两个基准上的准确度表现都优于GPT-5(high)。
值得一提的是,OpenAI在SWE-benchVerified上的成绩这一次终于使用了该数据集中所有的共500个任务,而不是像之前那样只使用了477个任务(曾因此备受批评),OpenAI声称之前只使用477个任务的原因是“有部分任务无法在基础设施上运行,而现在这一问题已解决。”
至于另一个代码重构基准Coderefactoringtasks则包含许多来自大型成熟软件库的重构任务,覆盖Python、Go、OCaml等语言。比如Gitea的一个PR,就修改了232个文件、3541行代码,为应用逻辑引入ctx变量。
GPT-5-Codex不仅性能更优,也能根据任务复杂度动态调整思考时间
它结合了两种关键能力:一是与开发者配合的交互式会话,二是对长任务的持久自主执行。
在处理小型请求或对话时,GPT-5-Codex反应更快;而在处理复杂任务(如大型重构)时,它能持续工作更久。OpenAI表示:“在测试中,我们看到GPT-5-Codex能独立运行超过7小时,不断迭代实现、修复测试,最终交付可用代码。”
OpenAI还分享了他们的内部使用数据:
用户请求中,用户交互中token数量(包括隐藏的推理和最终的输出)最少的10%情况下,GPT-5-Codex的token消耗比GPT-5少93.7%。
用户交互中token数量最多的10%情况下,它会投入更多时间,进行更深入的推理、编辑、测试和迭代。
GPT-5-Codex也专门训练了代码审查能力,可以主动发现关键漏洞。它会遍历代码库,分析依赖,并运行代码和测试来验证正确性。OpenAI用热门开源项目的最新提交(commit)做了评估,并让经验丰富的工程师进行了验证,结果发现:GPT-5-Codex的审查意见更少出现错误或无关内容,更能把注意力集中在关键问题上。
在前端任务上,GPT-5-Codex表现可靠。它能生成美观的桌面应用,也在移动网站的偏好测试中显著提升。云端环境下,它还能读取你上传的图片或截图,检查自己的进度,并把结果截图返回。
GPT-5-Codex针对CodexCLI、IDE插件、云环境和GitHub进行了深度优化,同时也支持多种工具调用。不过OpenAI也指出:“与通用的GPT-5不同,我们建议只在Codex或类似场景下使用GPT-5-Codex。”
Codex更新
除了发布GPT-5-Codex,OpenAI今天还宣布了Codex的一些升级,包含全新设计的CodexCLI以及新的CodexIDE插件。
CodexCLI
CodexCLI是开源的。过去几个月里,OpenAI基于社区反馈重新设计了CLI,让它更适合“自主编程”的工作流,使模型能成为更强大、更可靠的搭档。
现在用户可以在CLI中直接添加图片,例如截图、线框图和设计图。这样可以建立共享上下文,让设计决策更清晰,并更容易得到符合预期的结果。
在处理复杂任务时,Codex会用待办清单(to-dolist)跟踪进度,还支持web搜索和MCP等外部系统连接工具,整体的工具调用更准确。
终端界面也升级了:工具调用和代码差异现在格式更清晰,更容易阅读。
批准模式(approvalmode)简化为三种:
只读:需要明确批准才能修改;
自动:拥有完整工作区权限,但在工作区外仍需批准;
完全访问:可以读取任意文件,并在有网络访问的情况下运行命令。
CLI还支持压缩对话状态,方便管理更长的会话。
CodexIDE插件
Codex也能在IDE中直接使用。这个插件支持VSCode、Cursor以及其他VSCode分支。它能把Codex带进编辑器,让用户能无缝预览本地改动,并直接用Codex修改代码。
OpenAI介绍了在IDE中使用Codex的几个优势:
你可以写更简短的提示词,得到更快的结果,因为Codex会自动利用上下文,例如你打开的文件或选中的代码。
你可以在云端和本地环境之间流畅切换。比如,在编辑器里直接创建云端任务、跟踪进行中的工作或审查已完成的任务。
如需要调整,你可以在IDE中直接打开云端任务,Codex会保留上下文。
云端的Codex
除了CLI和IDE插件,新的GitHub集成也让Codex的云端智能体更贴近开发者的日常工作流。用户无需离开编辑器或GitHub,就能把任务交给Codex。
OpenAI表示,他们也一直在幕后不断提升云端性能,包括:
通过缓存容器(cachingcontainers),新任务和跟进任务的完成时间缩短了90%。
Codex会自动检测常见的初始化脚本并执行,帮你完成环境配置。
在配置了网络权限后,它还能在运行时执行pipinstall等命令,安装所需依赖。
和CLI、IDE一样,云端Codex也支持使用图片。你可以上传前端设计规范或UIbug截图。Codex会在浏览器里运行自己生成的内容,检查效果,并把截图附在任务或GitHubPR中。
代码审查
Codex现在也支持代码审查功能,可以发现关键缺陷。和静态分析工具不同,Codex会:
对比PR的目标和实际改动,
分析整个代码库和依赖关系,
运行代码和测试来验证行为。
这种审查力度,通常只有最仔细的人类工程师才能做到。Codex正好补上这一缺口,帮助团队更早发现问题,减轻审查负担,让上线更放心。
在GitHub上启用后:
当PR从草稿变为可审查状态时,Codex会自动给出分析。
如果它建议修改,你可以直接在同一讨论线程里让它实现。
你也可以手动请求审查,比如在PR里输入“@codexreview”,甚至给额外指令,如“@codexreviewforsecurityvulnerabilities”(检查安全漏洞)或“@codexreviewforoutdateddependencies”(检查过时依赖)。
OpenAI表示:“在OpenAI内部,Codex已经审查了我们绝大多数PR,每天能发现数百个问题,很多在人工审查开始之前就已经被拦下。这让团队能更快推进,同时保持信心。”
OpenAI如何让Codex更安全?
OpenAI还介绍了在开发Codex时对代码与数据安全的保护措施,他们也部署了一些防范潜在滥用的手段。
默认沙箱环境:无论本地还是云端,Codex默认运行在沙箱环境中,且关闭网络访问。这可以避免它在你的电脑上执行有害操作,也能减少来自不可信来源的提示词注入风险。
权限机制:在执行可能危险的操作前,Codex会请求许可。它也经过训练,会运行命令来验证自己的输出。
可配置的安全设置:开发者可以根据风险承受度调整设置。在云端,可以限制网络访问只允许可信域名;在CLI和IDE插件中,开发者可以决定是否批准Codex运行命令,或允许它使用网页搜索、连接MCP服务器。这样能扩展能力,但也会增加风险。
OpenAI也给出了建议:“我们始终建议开发者在上线前先检查Codex的工作结果。Codex会在每个任务中提供引用、终端日志和测试结果,方便人工验证。”但OpenAI也强调:Codex应作为附加审查者,而不是完全取代人工审查。
和GPT-5一样,OpenAI依然将GPT-5-Codex在生物与化学领域的任务归类为High能力,并采取了相应的安全措施,以尽量减少潜在风险。
价格与可用性
Codex已包含在ChatGPTPlus、Pro、Business、Edu和Enterprise订阅中。
Plus、Edu、Business用户:每周可覆盖几次集中的编程会话。
Pro用户:支持一整周、多个项目的完整工作量。
Business计划:可以额外购买积分,突破默认上限。
Enterprise计划:提供共享积分池,按实际使用付费。
目前用户还无法通过APIKey使用CodexCLI,但OpenAI也表示很快(soon)将通过API开放GPT-5-Codex。

相关文章

头条焦点
精彩导读
关注我们
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】