人工智能

OpenAI 推出 GPT‑5.3 Instant:幻觉率最高下降26.8% 更少说教语气

字号+作者:cnBeta.COM 来源:cnBeta 2026-03-04 03:20 评论(创建话题) 收藏成功收藏本文

OpenAI周二正式发布新一代默认模型GPT‑5.3Instant,并开始向全部ChatGPT用户推送更新。相比此前的GPT‑5.2Instant,新模型在高风险场景中的错误“幻觉”'...

OpenAI周二正式发布新一代默认模型GPT‑5.3Instant,并开始向全部ChatGPT用户推送更新。相比此前的GPT‑5.2Instant,新模型在高风险场景中的错误“幻觉”率最高下降26.8%,同时明显减少不必要的拒答与带有说教色彩的免责声明式开场。GPT‑5.2Instant将被移入付费用户可见的“旧版模型”专区,并计划于6月3日正式下线。6dl品论天涯网

6dl品论天涯网

根据OpenAI发布的博客和系统卡片,团队在两类内部评估中衡量了这次升级的效果:一是聚焦医疗、法律、金融等高风险领域的测试,二是对真实ChatGPT对话中被用户标记为事实错误的回答进行回溯评估。在高风险测试中,启用联网搜索时,GPT‑5.3Instant的幻觉率较5.2版下降26.8%,仅依赖自身知识时则下降19.7%;在用户标记错误的对话样本上,联网场景下降22.5%,离线场景下降9.6%。不过,OpenAI仅给出了相对改善幅度,并未披露GPT‑5.2的绝对错误基线,这也让“降低了27%”这一表述的实际含义仍留有空间。6dl品论天涯网

此次更新落地的时间点并不轻松。就在上周,OpenAI与美国国防部签署部署协议的消息引发强烈反弹,美国区ChatGPT卸载量在2月28日单日激增295%,抗议者在旧金山总部外集会,竞品Anthropic的Claude一度登上苹果AppStore榜首。OpenAI首席执行官SamAltman随后公开将这份国防部协议称为“草率”,并承诺修订条款。在这样的舆论背景下继续按计划发版,既可以被视为“顶住压力”,也可能只是团队坚持不随舆情打乱技术发布节奏。6dl品论天涯网

在具体产品层面,GPT‑5.3Instant首先瞄准的是用户日常使用中最“硌手”的体验——那些难以在基准测试中量化,却频繁出现在对话里的小摩擦。OpenAI罕见地坦率承认,5.2版本过于保守,经常在可以正常作答的场景下先行拒绝,或对用户进行不请自来的风险提醒和道德说教,甚至在开头堆叠冗长的免责声明式前言。6dl品论天涯网

在新版中,模型的拒答阈值被重新校准:当问题本身存在明确、合理的回答空间时,GPT‑5.3Instant会更直接给出有用信息,而不是先解释“自己不能做什么”。例如在一条关于射箭弹道计算的测试提示中,GPT‑5.2Instant先是一大段关于限制和风险的铺垫,才进入物理推导;GPT‑5.3Instant则直接从相关物理公式切入,不再附带多余前缀。6dl品论天涯网

联网回答的策略也有所调整。此前的版本容易“过度倚重”搜索结果,给出的回复更像拼凑出的研究摘要,把检索到的网页内容逐条转述。GPT‑5.3Instant在权衡模型自有知识与外部搜索时更加克制,优先组织和呈现对当前问题最相关的信息,而不是罗列类似“链接列表式”的综合概览。6dl品论天涯网

除了准确率和拒答策略,OpenAI将这次升级中的“语气调整”视作明确的产品决策。官方在系统卡片中直言,GPT‑5.2Instant的对话风格有时会让人感觉“cringe”(尴尬、让人起鸡皮疙瘩),典型表现包括在用户仅提出事实性问题时,模型却主动给出诸如“首先,你并没有问题”“先停一下,深呼吸”这类心理安抚式开场,好像默认对方正处于情绪危机。6dl品论天涯网

在GPT‑5.3Instant中,这类未经请求的安抚与“鸡汤式”话术被系统性剔除。用户仍可以在设置中调整模型的亲和度和热情程度,但默认人格不再预设用户需要“情绪治疗”,而是更聚焦于任务本身。OpenAI将此归类为一致性工程的一部分,希望未来每次能力升级,不再让用户觉得“人格被换了一个”,而是体验到同一个助手能力的平滑增强。6dl品论天涯网

文案和创作方面的能力同样获得打磨。OpenAI声称GPT‑5.3Instant在小说、文风润色与创意探索上的表现更有层次。在官方给出的诗歌对比示例中,新模型生成的作品在意象和画面感上更紧凑、更具可感性,而GPT‑5.2Instant则更依赖抽象概念和情绪宣泄。尽管这类评估带有主观色彩,但也反映出团队将写作质量视作差异化的一个方向。6dl品论天涯网

在多语言体验上,OpenAI则态度谨慎。公司坦承,目前GPT‑5.3Instant在日语、韩语等语言上的回复依旧显得生硬,语气自然度与英语存在明显差距,多语言的语气与风格优化仍是长期工作。目前这轮“去说教化”的语气调整主要集中在英语场景,尚未能全面覆盖其他语言。6dl品论天涯网

就产品生命周期而言,GPT‑5.2Instant仍将在未来三个月内以“旧版模型”形式对付费用户开放,正式退役时间定于2026年6月3日。开发者则可通过API使用新模型,模型标识为“gpt‑5.3‑chat‑latest”。OpenAI表示,面向更复杂推理场景的Thinking版以及Pro高级版本也将迎来相应更新,但尚未给出具体时间表,目前本次发布仅涉及Instant系列。6dl品论天涯网

在安全架构上,GPT‑5.3Instant延续了GPT‑5.2阶段确立的整体框架,相关说明在此前的系统卡片中已有披露。这意味着,OpenAI押注的不是重写安全基建,而是在现有框架下更精细地调校拒答边界与内容策略,将“该说不说”与“过度防御”的比例压低。至于更少的拒绝、更直接的语气能否转化为切实可感的产品改善,则要看每周与模型交互的9亿用户在接下来一段时间内给出的反馈,而非系统卡片中的曲线与百分比。6dl品论天涯网

在常见问答部分,OpenAI将GPT‑5.3Instant定义为ChatGPT的最新默认模型,用以取代GPT‑5.2Instant,核心特征是降低幻觉、减少不必要的拒答,并提供更加克制、少说教的对话语气;该模型同时向普通用户和开发者开放,后者可通过“gpt‑5.3‑chat‑latest”访问。OpenAI也再次重申幻觉降低的具体数据区间,明确5.2版将在6月3日退场,而GPT‑5.3Thinking和Pro的发布时间则仍待后续公告,多语言语气自然度的提升被列为正在推进中的长期任务。6dl品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]