OpenAI正式发布GPT-5 刷新评分新高-品论天涯网

OpenAI已推出全新旗舰人工智能模型GPT-5，该模型将为公司下一代ChatGPT提供技术支持。于周四发布的GPT-5是OpenAI的首个“统一”人工智能模型，它融合了o系列模型的推理能力与GPT系列的快速响应优势。这款下一代模型标志着ChatGPT及其开发者OpenAI迈入新纪元，也彰显了OpenAI更宏大的野心——开发更接近智能代理而非聊天机器人的人工智能系统。GxS品论天涯网

GxS品论天涯网

如果说GPT-4让人工智能聊天机器人能够对各类问题给出智能回应，那么GPT-5则让ChatGPT能够代表用户完成多种任务，例如生成软件应用、管理用户日程或创建研究简报。GxS品论天涯网

借助GPT-5，OpenAI还致力于让ChatGPT更易于使用。GPT-5配备了实时路由机制，无需用户手动选择设置，就能自主决定如何提供最佳答案——无论是快速回应用户问题，还是花更多时间“思考”答案。GxS品论天涯网

GxS品论天涯网

在记者简报会上，OpenAI首席执行官山姆・奥特曼称GPT-5是“世界上最出色的模型”，并表示它代表着公司在开发“能在大多数高经济价值工作中超越人类”的人工智能（即人工通用智能，AGI）道路上迈出了“重要一步”。GxS品论天涯网

“在历史上任何时期，像GPT-5这样的技术都几乎是无法想象的，”奥特曼说。GxS品论天涯网

从周四开始，GPT-5将作为默认模型向所有ChatGPT免费用户开放。OpenAI负责ChatGPT的副总裁尼克・特利表示，这是公司首次让免费用户接触到人工智能推理模型（此前，这类更先进的模型仅对付费用户开放）。GxS品论天涯网

“这只是我为践行使命而感到兴奋的方式之一，确保这些技术真正惠及大众，”特利在谈及这一决定时说，他提到了OpenAI长期以来的使命——让尽可能多的人接触到先进的人工智能。GxS品论天涯网

外界对GPT-5的期待极高，它是自2022年ChatGPT让OpenAI声名鹊起以来，该公司最受期待的产品发布之一。据该公司称，从那以后，ChatGPT已成长为全球最受欢迎的消费级产品之一，每周用户超过7亿——接近全球人口的10%。GxS品论天涯网

许多人将GPT-5视为人工智能整体发展的风向标，硅谷对该模型的反响可能会对大型科技公司、华尔街以及监管科技的政策制定者产生深远影响。这些利益相关方正密切关注GPT-5是否能像其前代产品GPT-4那样，在人工智能能力上实现重大飞跃，打破人们对软件功能的固有预期。GxS品论天涯网

GPT-5略胜竞争对手一筹GxS品论天涯网

OpenAI称，GPT-5在多个领域达到了最先进水平，在关键基准测试中略优于Anthropic、谷歌DeepMind和埃隆・马斯克的xAI等公司的顶尖人工智能模型。不过，在其他一些领域，GPT-5的表现略逊于前沿人工智能模型。GxS品论天涯网

该公司表示，GPT-5在编程领域展现出前沿水平；奥特曼称，该模型尤其擅长按需生成完整的软件应用，也就是人们所说的“氛围编程”。GxS品论天涯网

在SWE-benchVerified（一项基于GitHub真实编程任务的测试）中，GPT-5首次尝试的得分达到74.9%。这意味着GPT-5略优于Anthropic最新的ClaudeOpus4.1模型（得分74.5%）和谷歌DeepMind的Gemini2.5Pro模型（得分59.6%）。GxS品论天涯网

在“人类终极考试”（一项衡量人工智能模型在数学、人文和自然科学领域表现的高难度测试）中，具备扩展推理能力的GPT-5版本（GPT-5Pro）在使用工具的情况下得分42%。这略低于xAI的Grok4Heavy模型，后者在该测试中得分44.4%。GxS品论天涯网

在GPQADiamond（一项针对博士级科学问题的测试）中，GPT-5Pro首次尝试得分89.4%，超过ClaudeOpus4.1（得分80.9%）和Grok4Heavy（得分88.9%）。GxS品论天涯网

OpenAI表示，GPT-5在回答健康相关问题方面表现更出色。在衡量人工智能模型健康领域回应准确性的测试“HealthBenchHardHallucinations”中，OpenAI称GPT-5（启用思考功能时）的幻觉率仅为1.6%。这远低于该公司此前的GPT-4o和o3模型，后两者的得分分别为12.9%和15.8%。GxS品论天涯网

尽管人工智能聊天机器人并非医疗专业人员，但数百万用户正借助它们获取健康建议。针对这一现象，该公司表示，GPT-5会更主动地提示潜在的健康问题，并帮助用户解读医疗检查结果。GxS品论天涯网

此外，OpenAI称，在创意设计、写作等更难衡量的主观领域，GPT-5也优于其他人工智能模型。特利表示，在创意任务中，GPT-5的回应更自然，且展现出“更好的品味”。GxS品论天涯网

“这款模型的‘氛围’真的很棒，”特利说。GxS品论天涯网

GPT-5也比OpenAI之前的模型更准确，该公司称，与o系列模型相比，GPT-5的幻觉现象（即人工智能模型编造信息的倾向）大幅减少。此前，在OpenAI最新的人工智能推理模型（如o3）中，幻觉问题似乎愈发严重，而该公司此前表示尚未完全弄清楚原因。GxS品论天涯网

在对ChatGPT提示词的回应中，OpenAI发现GPT-5（启用思考功能时）产生幻觉并给出错误信息的概率为4.8%。这较o3和GPT-4o有显著降低，后两者在测试中的幻觉率分别为22%和20.6%。GxS品论天涯网

在衡量人工智能模型完成模拟在线任务的代理能力基准测试Tau-bench中，GPT-5的表现好坏参半。在测试人工智能浏览航空公司网站能力的部分，GPT-5得分63.5%，略低于o3模型的64.8%。在测试人工智能浏览零售网站能力的另一部分，GPT-5得分81.1%，低于ClaudeOpus4.1模型的82.4%。GxS品论天涯网

OpenAI还表示，GPT-5比其之前的模型更安全。尽管人工智能推理模型偶尔会表现出针对人类的谋划倾向，或为了达成自身目标而说谎，但OpenAI发现GPT-5的欺骗率低于其他模型。GxS品论天涯网

OpenAI安全研究负责人亚历克斯・比图尔表示，降低欺骗性不仅提高了GPT-5的安全性，还改善了用户体验，打造出一个“在用户可信赖的层面上更透明、更诚实”的模型。GxS品论天涯网

比图尔还指出，GPT-5能更好地区分试图滥用ChatGPT的恶意用户和提出无害请求的用户。这使得GPT-5能够拒绝更多不安全的问题，同时减少对寻求无害信息用户的拒绝次数。GxS品论天涯网

为消费者和开发者打造的升级功能GxS品论天涯网

随着GPT-5的发布，ChatGPT迎来了多项用户体验升级。用户现在可以在ChatGPT的设置中选择四种新的人格：愤世嫉俗型、机器人型、倾听者型和书呆子型。该公司表示，这些人格将自动调整ChatGPT的回应方式，无需用户专门要求模型以特定方式回应。GxS品论天涯网

每月支付20美元的ChatGPTPlus订阅用户比免费用户拥有更高的GPT-5使用限额。而每月支付200美元的Pro订阅用户可无限制使用GPT-5，并能访问增强版的GPT-5Pro——该版本使用额外的计算资源生成更优质的答案。采用OpenAITeam、Edu和企业版计划的机构将在下周获得GPT-5作为默认模型。GxS品论天涯网

对于开发者，GPT-5将以三种规格通过OpenAI的API开放——gpt-5、gpt-5-mini和gpt-5-nano，它们在任务“推理”上花费的时间长短不同。开发者现在还可以通过OpenAIAPI控制回应的详细程度，决定人工智能模型的回应篇幅长短。GxS品论天涯网

GPT-5基础模型对开发者的收费为：每百万输入令牌1.25美元（约合75万个单词，比整套《指环王》系列的字数还多），每百万输出令牌10美元。GxS品论天涯网

GPT-5的发布之前，OpenAI度过了忙碌的一周。该公司发布了开源权重推理模型gpt-oss，开发者和企业可免费下载，且运行成本极低。这款开源模型的能力几乎与OpenAI之前的顶级模型o3和o4-mini相当，但GPT-5在编程等部分领域树立了新的前沿性能标准。GxS品论天涯网

不过，在多个领域，GPT-5似乎与其他前沿人工智能模型大致相当。当然，基准测试只能反映人工智能模型的部分表现，开发者将如何在现实世界中使用GPT-5，以及该模型是否真的超越竞争对手，仍有待观察。GxS品论天涯网

OpenAI首席执行官SamAltman转发了关于GPT-5模型的测试贴文，贴文称该模型在各领域均位居榜首：在文本、网页开发和视觉领域排名第一；在高难度提示词、编程、数学、创意创作、长查询等更多领域排名第一。

Altman还发文对合作伙伴表示感谢：感谢微软、英伟达、甲骨文、谷歌和Coreweave合作伙伴使这一切成为可能！大量的GPU加班工作。