人工智能

OpenAI正式发布GPT-5 刷新评分新高

字号+作者:环球市场播报 来源:环球市场播报 2025-08-08 07:13 评论(创建话题) 收藏成功收藏本文

OpenAI已推出全新旗舰人工智能模型GPT-5,该模型将为公司下一代ChatGPT提供技术支持。于周四发布的GPT-5是OpenAI的首个“统一”人工智能模型,它融合了o系'...

OpenAI已推出全新旗舰人工智能模型GPT-5,该模型将为公司下一代ChatGPT提供技术支持。于周四发布的GPT-5是OpenAI的首个“统一”人工智能模型,它融合了o系列模型的推理能力与GPT系列的快速响应优势。这款下一代模型标志着ChatGPT及其开发者OpenAI迈入新纪元,也彰显了OpenAI更宏大的野心——开发更接近智能代理而非聊天机器人的人工智能系统。5SX品论天涯网


5SX品论天涯网

如果说GPT-4让人工智能聊天机器人能够对各类问题给出智能回应,那么GPT-5则让ChatGPT能够代表用户完成多种任务,例如生成软件应用、管理用户日程或创建研究简报。5SX品论天涯网

借助GPT-5,OpenAI还致力于让ChatGPT更易于使用。GPT-5配备了实时路由机制,无需用户手动选择设置,就能自主决定如何提供最佳答案——无论是快速回应用户问题,还是花更多时间“思考”答案。5SX品论天涯网


5SX品论天涯网

在记者简报会上,OpenAI首席执行官山姆・奥特曼称GPT-5是“世界上最出色的模型”,并表示它代表着公司在开发“能在大多数高经济价值工作中超越人类”的人工智能(即人工通用智能,AGI)道路上迈出了“重要一步”。5SX品论天涯网

“在历史上任何时期,像GPT-5这样的技术都几乎是无法想象的,”奥特曼说。5SX品论天涯网

从周四开始,GPT-5将作为默认模型向所有ChatGPT免费用户开放。OpenAI负责ChatGPT的副总裁尼克・特利表示,这是公司首次让免费用户接触到人工智能推理模型(此前,这类更先进的模型仅对付费用户开放)。5SX品论天涯网

“这只是我为践行使命而感到兴奋的方式之一,确保这些技术真正惠及大众,”特利在谈及这一决定时说,他提到了OpenAI长期以来的使命——让尽可能多的人接触到先进的人工智能。5SX品论天涯网

外界对GPT-5的期待极高,它是自2022年ChatGPT让OpenAI声名鹊起以来,该公司最受期待的产品发布之一。据该公司称,从那以后,ChatGPT已成长为全球最受欢迎的消费级产品之一,每周用户超过7亿——接近全球人口的10%。5SX品论天涯网

许多人将GPT-5视为人工智能整体发展的风向标,硅谷对该模型的反响可能会对大型科技公司、华尔街以及监管科技的政策制定者产生深远影响。这些利益相关方正密切关注GPT-5是否能像其前代产品GPT-4那样,在人工智能能力上实现重大飞跃,打破人们对软件功能的固有预期。5SX品论天涯网

GPT-5略胜竞争对手一筹5SX品论天涯网

OpenAI称,GPT-5在多个领域达到了最先进水平,在关键基准测试中略优于Anthropic、谷歌DeepMind和埃隆・马斯克的xAI等公司的顶尖人工智能模型。不过,在其他一些领域,GPT-5的表现略逊于前沿人工智能模型。5SX品论天涯网

该公司表示,GPT-5在编程领域展现出前沿水平;奥特曼称,该模型尤其擅长按需生成完整的软件应用,也就是人们所说的“氛围编程”。5SX品论天涯网

在SWE-benchVerified(一项基于GitHub真实编程任务的测试)中,GPT-5首次尝试的得分达到74.9%。这意味着GPT-5略优于Anthropic最新的ClaudeOpus4.1模型(得分74.5%)和谷歌DeepMind的Gemini2.5Pro模型(得分59.6%)。5SX品论天涯网

在“人类终极考试”(一项衡量人工智能模型在数学、人文和自然科学领域表现的高难度测试)中,具备扩展推理能力的GPT-5版本(GPT-5Pro)在使用工具的情况下得分42%。这略低于xAI的Grok4Heavy模型,后者在该测试中得分44.4%。5SX品论天涯网


在GPQADiamond(一项针对博士级科学问题的测试)中,GPT-5Pro首次尝试得分89.4%,超过ClaudeOpus4.1(得分80.9%)和Grok4Heavy(得分88.9%)。5SX品论天涯网

OpenAI表示,GPT-5在回答健康相关问题方面表现更出色。在衡量人工智能模型健康领域回应准确性的测试“HealthBenchHardHallucinations”中,OpenAI称GPT-5(启用思考功能时)的幻觉率仅为1.6%。这远低于该公司此前的GPT-4o和o3模型,后两者的得分分别为12.9%和15.8%。5SX品论天涯网

尽管人工智能聊天机器人并非医疗专业人员,但数百万用户正借助它们获取健康建议。针对这一现象,该公司表示,GPT-5会更主动地提示潜在的健康问题,并帮助用户解读医疗检查结果。5SX品论天涯网

此外,OpenAI称,在创意设计、写作等更难衡量的主观领域,GPT-5也优于其他人工智能模型。特利表示,在创意任务中,GPT-5的回应更自然,且展现出“更好的品味”。5SX品论天涯网

“这款模型的‘氛围’真的很棒,”特利说。5SX品论天涯网

GPT-5也比OpenAI之前的模型更准确,该公司称,与o系列模型相比,GPT-5的幻觉现象(即人工智能模型编造信息的倾向)大幅减少。此前,在OpenAI最新的人工智能推理模型(如o3)中,幻觉问题似乎愈发严重,而该公司此前表示尚未完全弄清楚原因。5SX品论天涯网

在对ChatGPT提示词的回应中,OpenAI发现GPT-5(启用思考功能时)产生幻觉并给出错误信息的概率为4.8%。这较o3和GPT-4o有显著降低,后两者在测试中的幻觉率分别为22%和20.6%。5SX品论天涯网

在衡量人工智能模型完成模拟在线任务的代理能力基准测试Tau-bench中,GPT-5的表现好坏参半。在测试人工智能浏览航空公司网站能力的部分,GPT-5得分63.5%,略低于o3模型的64.8%。在测试人工智能浏览零售网站能力的另一部分,GPT-5得分81.1%,低于ClaudeOpus4.1模型的82.4%。5SX品论天涯网

OpenAI还表示,GPT-5比其之前的模型更安全。尽管人工智能推理模型偶尔会表现出针对人类的谋划倾向,或为了达成自身目标而说谎,但OpenAI发现GPT-5的欺骗率低于其他模型。5SX品论天涯网

OpenAI安全研究负责人亚历克斯・比图尔表示,降低欺骗性不仅提高了GPT-5的安全性,还改善了用户体验,打造出一个“在用户可信赖的层面上更透明、更诚实”的模型。5SX品论天涯网

比图尔还指出,GPT-5能更好地区分试图滥用ChatGPT的恶意用户和提出无害请求的用户。这使得GPT-5能够拒绝更多不安全的问题,同时减少对寻求无害信息用户的拒绝次数。5SX品论天涯网

为消费者和开发者打造的升级功能5SX品论天涯网

随着GPT-5的发布,ChatGPT迎来了多项用户体验升级。用户现在可以在ChatGPT的设置中选择四种新的人格:愤世嫉俗型、机器人型、倾听者型和书呆子型。该公司表示,这些人格将自动调整ChatGPT的回应方式,无需用户专门要求模型以特定方式回应。5SX品论天涯网

每月支付20美元的ChatGPTPlus订阅用户比免费用户拥有更高的GPT-5使用限额。而每月支付200美元的Pro订阅用户可无限制使用GPT-5,并能访问增强版的GPT-5Pro——该版本使用额外的计算资源生成更优质的答案。采用OpenAITeam、Edu和企业版计划的机构将在下周获得GPT-5作为默认模型。5SX品论天涯网

对于开发者,GPT-5将以三种规格通过OpenAI的API开放——gpt-5、gpt-5-mini和gpt-5-nano,它们在任务“推理”上花费的时间长短不同。开发者现在还可以通过OpenAIAPI控制回应的详细程度,决定人工智能模型的回应篇幅长短。5SX品论天涯网

GPT-5基础模型对开发者的收费为:每百万输入令牌1.25美元(约合75万个单词,比整套《指环王》系列的字数还多),每百万输出令牌10美元。5SX品论天涯网

GPT-5的发布之前,OpenAI度过了忙碌的一周。该公司发布了开源权重推理模型gpt-oss,开发者和企业可免费下载,且运行成本极低。这款开源模型的能力几乎与OpenAI之前的顶级模型o3和o4-mini相当,但GPT-5在编程等部分领域树立了新的前沿性能标准。5SX品论天涯网

不过,在多个领域,GPT-5似乎与其他前沿人工智能模型大致相当。当然,基准测试只能反映人工智能模型的部分表现,开发者将如何在现实世界中使用GPT-5,以及该模型是否真的超越竞争对手,仍有待观察。5SX品论天涯网

OpenAI首席执行官SamAltman转发了关于GPT-5模型的测试贴文,贴文称该模型在各领域均位居榜首:在文本、网页开发和视觉领域排名第一;在高难度提示词、编程、数学、创意创作、长查询等更多领域排名第一。5SX品论天涯网


5SX品论天涯网

Altman还发文对合作伙伴表示感谢:感谢微软、英伟达、甲骨文、谷歌和Coreweave合作伙伴使这一切成为可能!大量的GPU加班工作。5SX品论天涯网

5SX品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]