如果说GPT-4让人工智能聊天机器人能够对各类问题给出智能回应,那么GPT-5则让ChatGPT能够代表用户完成多种任务,例如生成软件应用、管理用户日程或创建研究简报。
借助GPT-5,OpenAI还致力于让ChatGPT更易于使用。GPT-5配备了实时路由机制,无需用户手动选择设置,就能自主决定如何提供最佳答案——无论是快速回应用户问题,还是花更多时间“思考”答案。
在记者简报会上,OpenAI首席执行官山姆・奥特曼称GPT-5是“世界上最出色的模型”,并表示它代表着公司在开发“能在大多数高经济价值工作中超越人类”的人工智能(即人工通用智能,AGI)道路上迈出了“重要一步”。
“在历史上任何时期,像GPT-5这样的技术都几乎是无法想象的,”奥特曼说。
从周四开始,GPT-5将作为默认模型向所有ChatGPT免费用户开放。OpenAI负责ChatGPT的副总裁尼克・特利表示,这是公司首次让免费用户接触到人工智能推理模型(此前,这类更先进的模型仅对付费用户开放)。
“这只是我为践行使命而感到兴奋的方式之一,确保这些技术真正惠及大众,”特利在谈及这一决定时说,他提到了OpenAI长期以来的使命——让尽可能多的人接触到先进的人工智能。
外界对GPT-5的期待极高,它是自2022年ChatGPT让OpenAI声名鹊起以来,该公司最受期待的产品发布之一。据该公司称,从那以后,ChatGPT已成长为全球最受欢迎的消费级产品之一,每周用户超过7亿——接近全球人口的10%。
许多人将GPT-5视为人工智能整体发展的风向标,硅谷对该模型的反响可能会对大型科技公司、华尔街以及监管科技的政策制定者产生深远影响。这些利益相关方正密切关注GPT-5是否能像其前代产品GPT-4那样,在人工智能能力上实现重大飞跃,打破人们对软件功能的固有预期。
GPT-5略胜竞争对手一筹
OpenAI称,GPT-5在多个领域达到了最先进水平,在关键基准测试中略优于Anthropic、谷歌DeepMind和埃隆・马斯克的xAI等公司的顶尖人工智能模型。不过,在其他一些领域,GPT-5的表现略逊于前沿人工智能模型。
该公司表示,GPT-5在编程领域展现出前沿水平;奥特曼称,该模型尤其擅长按需生成完整的软件应用,也就是人们所说的“氛围编程”。
在SWE-benchVerified(一项基于GitHub真实编程任务的测试)中,GPT-5首次尝试的得分达到74.9%。这意味着GPT-5略优于Anthropic最新的ClaudeOpus4.1模型(得分74.5%)和谷歌DeepMind的Gemini2.5Pro模型(得分59.6%)。
在“人类终极考试”(一项衡量人工智能模型在数学、人文和自然科学领域表现的高难度测试)中,具备扩展推理能力的GPT-5版本(GPT-5Pro)在使用工具的情况下得分42%。这略低于xAI的Grok4Heavy模型,后者在该测试中得分44.4%。
在GPQADiamond(一项针对博士级科学问题的测试)中,GPT-5Pro首次尝试得分89.4%,超过ClaudeOpus4.1(得分80.9%)和Grok4Heavy(得分88.9%)。
OpenAI表示,GPT-5在回答健康相关问题方面表现更出色。在衡量人工智能模型健康领域回应准确性的测试“HealthBenchHardHallucinations”中,OpenAI称GPT-5(启用思考功能时)的幻觉率仅为1.6%。这远低于该公司此前的GPT-4o和o3模型,后两者的得分分别为12.9%和15.8%。
尽管人工智能聊天机器人并非医疗专业人员,但数百万用户正借助它们获取健康建议。针对这一现象,该公司表示,GPT-5会更主动地提示潜在的健康问题,并帮助用户解读医疗检查结果。
此外,OpenAI称,在创意设计、写作等更难衡量的主观领域,GPT-5也优于其他人工智能模型。特利表示,在创意任务中,GPT-5的回应更自然,且展现出“更好的品味”。
“这款模型的‘氛围’真的很棒,”特利说。
GPT-5也比OpenAI之前的模型更准确,该公司称,与o系列模型相比,GPT-5的幻觉现象(即人工智能模型编造信息的倾向)大幅减少。此前,在OpenAI最新的人工智能推理模型(如o3)中,幻觉问题似乎愈发严重,而该公司此前表示尚未完全弄清楚原因。
在对ChatGPT提示词的回应中,OpenAI发现GPT-5(启用思考功能时)产生幻觉并给出错误信息的概率为4.8%。这较o3和GPT-4o有显著降低,后两者在测试中的幻觉率分别为22%和20.6%。
在衡量人工智能模型完成模拟在线任务的代理能力基准测试Tau-bench中,GPT-5的表现好坏参半。在测试人工智能浏览航空公司网站能力的部分,GPT-5得分63.5%,略低于o3模型的64.8%。在测试人工智能浏览零售网站能力的另一部分,GPT-5得分81.1%,低于ClaudeOpus4.1模型的82.4%。
OpenAI还表示,GPT-5比其之前的模型更安全。尽管人工智能推理模型偶尔会表现出针对人类的谋划倾向,或为了达成自身目标而说谎,但OpenAI发现GPT-5的欺骗率低于其他模型。
OpenAI安全研究负责人亚历克斯・比图尔表示,降低欺骗性不仅提高了GPT-5的安全性,还改善了用户体验,打造出一个“在用户可信赖的层面上更透明、更诚实”的模型。
比图尔还指出,GPT-5能更好地区分试图滥用ChatGPT的恶意用户和提出无害请求的用户。这使得GPT-5能够拒绝更多不安全的问题,同时减少对寻求无害信息用户的拒绝次数。
为消费者和开发者打造的升级功能
随着GPT-5的发布,ChatGPT迎来了多项用户体验升级。用户现在可以在ChatGPT的设置中选择四种新的人格:愤世嫉俗型、机器人型、倾听者型和书呆子型。该公司表示,这些人格将自动调整ChatGPT的回应方式,无需用户专门要求模型以特定方式回应。
每月支付20美元的ChatGPTPlus订阅用户比免费用户拥有更高的GPT-5使用限额。而每月支付200美元的Pro订阅用户可无限制使用GPT-5,并能访问增强版的GPT-5Pro——该版本使用额外的计算资源生成更优质的答案。采用OpenAITeam、Edu和企业版计划的机构将在下周获得GPT-5作为默认模型。
对于开发者,GPT-5将以三种规格通过OpenAI的API开放——gpt-5、gpt-5-mini和gpt-5-nano,它们在任务“推理”上花费的时间长短不同。开发者现在还可以通过OpenAIAPI控制回应的详细程度,决定人工智能模型的回应篇幅长短。
GPT-5基础模型对开发者的收费为:每百万输入令牌1.25美元(约合75万个单词,比整套《指环王》系列的字数还多),每百万输出令牌10美元。
GPT-5的发布之前,OpenAI度过了忙碌的一周。该公司发布了开源权重推理模型gpt-oss,开发者和企业可免费下载,且运行成本极低。这款开源模型的能力几乎与OpenAI之前的顶级模型o3和o4-mini相当,但GPT-5在编程等部分领域树立了新的前沿性能标准。
不过,在多个领域,GPT-5似乎与其他前沿人工智能模型大致相当。当然,基准测试只能反映人工智能模型的部分表现,开发者将如何在现实世界中使用GPT-5,以及该模型是否真的超越竞争对手,仍有待观察。

相关文章

头条焦点
精彩导读
关注我们
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】