人工智能

OpenAI 推出其最先进、最经济的语音转语音模型 GPT-realtime

字号+作者:cnBeta.COM 来源:cnBeta 2025-08-29 07:28 评论(创建话题) 收藏成功收藏本文

早在2024年10月,OpenAI就发布了RealtimeAPI,使开发者能够在其应用中构建低延迟、多模式的体验。自那时起,成千上万的开发者已经使用RealtimeAPI在其应用和'...

早在2024年10月,OpenAI就发布了RealtimeAPI,使开发者能够在其应用中构建低延迟、多模式的体验。自那时起,成千上万的开发者已经使用RealtimeAPI在其应用和服务中构建了自然的语音转语音体验。今天,OpenAI发布了其最先进的语音转语音模型GPT-realtime,该模型能够更好地遵循复杂指令,以更低的错误率调用工具,并生成更自然、更具表现力的语音。Rxj品论天涯网

Rxj品论天涯网

OpenAI声称,这款新模型能够更好地解读系统消息和开发者提示。RealtimeAPI去年发布时,自带6种不同的声音,后来又添加了两种。今天,OpenAI宣布推出两种新声音:Marin和Cedar。除了新增声音外,现有的6种声音也进行了更新,使其听起来更加自然。Rxj品论天涯网

OpenAI提到,这个新的GPT-realtime模型可以更好地理解音频,并且准确率更高,在基准测试中的表现也更好:Rxj品论天涯网

  • BigBenchAudio:gpt-realtime的准确率达到了82.8%,超过了2024年12月推出的上一代实时模型(准确率65.6%)。Rxj品论天涯网

  • MultiChallenge音频基准测试:gpt-realtime得分为30.5%,与2024年12月的上一代型号(得分为20.6%)相比有显著提升。Rxj品论天涯网

  • ComplexFuncBench音频评估:gpt-realtime得分为66.5%,而2024年12月的上一代型号得分为49.7%。Rxj品论天涯网

  • 除了新模型和语音之外,OpenAI还宣布了API的多项更新。实时API现在支持远程MCP服务器、图像输入以及通过会话发起协议(SIP)进行电话呼叫。最后,开发人员现在可以保存和重复使用提示。Rxj品论天涯网

    Rxj品论天涯网

    尽管进行了这些改进,OpenAI还是降低了RealtimeAPI的价格。与GPT-4o-realtime-preview相比,新的GPT-realtimeAPI便宜了20%,每100万个音频输入词元32美元(缓存输入词元0.40美元),每100万个音频输出词元64美元。Rxj品论天涯网

    凭借这些有意义的性能改进和令人惊讶的价格下降,OpenAI将gpt-realtime定位为构建下一代语音优先体验的开发人员的有力选择。Rxj品论天涯网

    本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]