人工智能

OpenAI 推出三款实时语音模型 可边听边“思考”、翻译和转录

字号+作者:cnBeta.COM 来源:cnBeta 2026-05-08 02:32 评论(创建话题) 收藏成功收藏本文

OpenAI今日发布三款全新的实时语音模型,旨在为开发者“解锁新一代语音应用形态”。这三款语音智能模型分别侧重推理对话、实时翻译和实时转录等不同场景'...

OpenAI今日发布三款全新的实时语音模型,旨在为开发者“解锁新一代语音应用形态”。这三款语音智能模型分别侧重推理对话、实时翻译和实时转录等不同场景需求。8TH品论天涯网

8TH品论天涯网

根据OpenAI公布的信息,新系列包括GPT‑Realtime‑2、GPT‑Realtime‑Translate和GPT‑Realtime‑Whisper三个模型。其中,GPT‑Realtime‑2被定位为首款具备GPT‑5级推理能力的语音模型,能够更好地处理复杂请求,并以更自然的方式持续推进对话。官方介绍称,该模型专为实时语音交互打造,在用户提问或发出指令时,一边进行推理、一边保持对话连贯,同时还能调用工具、处理用户打断和更正,并根据当下情境作出更贴切的回应。8TH品论天涯网

第二款模型GPT‑Realtime‑Translate主打实时翻译能力,可支持“70多种输入语言和13种输出语言”,并在翻译过程中尽量跟上说话者的语速。这一特性意味着,跨语言通话、会议或直播等场景,有望通过该模型获得更接近“同声传译”的体验。8TH品论天涯网

第三款GPT‑Realtime‑Whisper则是一款实时流式语音转写模型,聚焦低延迟语音转文本能力。OpenAI表示,该模型可以在说话者讲话的同时即时完成转录,使得各类实时产品显得更快速、更灵敏、更自然。从直播字幕“边说边出”,到能跟上讨论节奏的会议记录,这类应用场景都被视为GPT‑Realtime‑Whisper的主要发力方向。8TH品论天涯网

8TH品论天涯网

在接入方式与价格方面,OpenAI称三款新语音模型均已纳入其RealtimeAPI体系。GPT‑Realtime‑2的定价为每100万音频输入Token收费32美元(缓存输入Token为0.40美元),每100万音频输出Token收费64美元。GPT‑Realtime‑Translate的价格为每分钟0.034美元,而GPT‑Realtime‑Whisper的价格为每分钟0.017美元。8TH品论天涯网

OpenAI表示,开发者可以通过Playground直接测试这些新的实时语音模型。若已安装Codex,只需在指定提示上点击提交,即可将GPT‑Realtime‑2添加到现有应用,或基于该模型快速创建一款新应用。官方也在其网站上进一步介绍了这三款语音模型的技术细节,以及部分合作企业已经如何在实际产品中加以利用。8TH品论天涯网

在生成式AI持续向多模态与实时交互演进的背景下,OpenAI此次发布的三款语音模型,被视为其在“语音智能”方向上的又一重要布局。随着推理、翻译与转录能力的统一整合,开发者将能够更轻松地为用户提供“开口就能用”的语音AI体验,从助手工具到生产力应用,再到内容创作与无障碍服务,都有望迎来新一轮探索与创新。8TH品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]