OpenAI推出三款实时语音API模型 升级交互体验

2026年5月7日,OpenAI正式推出三款实时语音API模型,助力开发者打造更自然、智能且能实时响应的语音交互应用。
此次发布的三款模型分别为:具备GPT-5级推理能力的GPT-Realtime-2,可处理复杂请求并自然推进对话;支持70余种输入语言转13种输出语言的GPT-Realtime-Translate,能同步跟进说话节奏实现实时翻译;以及可实时转录语音的GPT-Realtime-Whisper。
当前语音已成为用户使用软件的自然方式之一,OpenAI指出开发者围绕语音AI形成三类应用模式:语音控任务,如Zillow打造的语音助手可完成找房、预约看房等操作;智能语音引导,如旅行APP可主动告知航班动态及换乘方案;跨语言语音对话,如德国电信构建的实时翻译客服场景。此外,GPT-Realtime-2还具备预提示语、并行工具调用、更强容错能力、128K上下文窗口、专业术语识别及可控语气等特性。

© 版权声明
THE END
喜欢就支持一下吧
分享