OpenAI 推出其最先进、最经济的语音转语音模型 GPT-realtime-品论天涯网

早在2024年10月，OpenAI就发布了RealtimeAPI，使开发者能够在其应用中构建低延迟、多模式的体验。自那时起，成千上万的开发者已经使用RealtimeAPI在其应用和服务中构建了自然的语音转语音体验。今天，OpenAI发布了其最先进的语音转语音模型GPT-realtime，该模型能够更好地遵循复杂指令，以更低的错误率调用工具，并生成更自然、更具表现力的语音。hv3品论天涯网

OpenAI声称，这款新模型能够更好地解读系统消息和开发者提示。RealtimeAPI去年发布时，自带6种不同的声音，后来又添加了两种。今天，OpenAI宣布推出两种新声音：Marin和Cedar。除了新增声音外，现有的6种声音也进行了更新，使其听起来更加自然。hv3品论天涯网

OpenAI提到，这个新的GPT-realtime模型可以更好地理解音频，并且准确率更高，在基准测试中的表现也更好：hv3品论天涯网

BigBenchAudio：gpt-realtime的准确率达到了82.8%，超过了2024年12月推出的上一代实时模型（准确率65.6%）。hv3品论天涯网

MultiChallenge音频基准测试：gpt-realtime得分为30.5%，与2024年12月的上一代型号（得分为20.6%）相比有显著提升。hv3品论天涯网

ComplexFuncBench音频评估：gpt-realtime得分为66.5%，而2024年12月的上一代型号得分为49.7%。hv3品论天涯网

除了新模型和语音之外，OpenAI还宣布了API的多项更新。实时API现在支持远程MCP服务器、图像输入以及通过会话发起协议(SIP)进行电话呼叫。最后，开发人员现在可以保存和重复使用提示。hv3品论天涯网

尽管进行了这些改进，OpenAI还是降低了RealtimeAPI的价格。与GPT-4o-realtime-preview相比，新的GPT-realtimeAPI便宜了20%，每100万个音频输入词元32美元（缓存输入词元0.40美元），每100万个音频输出词元64美元。hv3品论天涯网

凭借这些有意义的性能改进和令人惊讶的价格下降，OpenAI将gpt-realtime定位为构建下一代语音优先体验的开发人员的有力选择。hv3品论天涯网