OpenAI推出三款实时语音API模型升级交互体验

2026年5月7日，OpenAI正式推出三款实时语音API模型，助力开发者打造更自然、智能且能实时响应的语音交互应用。
此次发布的三款模型分别为：具备GPT-5级推理能力的GPT-Realtime-2，可处理复杂请求并自然推进对话；支持70余种输入语言转13种输出语言的GPT-Realtime-Translate，能同步跟进说话节奏实现实时翻译；以及可实时转录语音的GPT-Realtime-Whisper。
当前语音已成为用户使用软件的自然方式之一，OpenAI指出开发者围绕语音AI形成三类应用模式：语音控任务，如Zillow打造的语音助手可完成找房、预约看房等操作；智能语音引导，如旅行APP可主动告知航班动态及换乘方案；跨语言语音对话，如德国电信构建的实时翻译客服场景。此外，GPT-Realtime-2还具备预提示语、并行工具调用、更强容错能力、128K上下文窗口、专业术语识别及可控语气等特性。

文章版权归作者所有，未经允许请勿转载。

THE END

AI新闻

OpenAI推出三款实时语音API模型 升级交互体验

Ads

OpenAI推出三款实时语音API模型升级交互体验