OpenAI重构WebRTC栈实现大规模低延迟语音AI

2026年5月4日，OpenAI技术团队发布技术博文，介绍其为满足超9亿周活跃用户的低延迟语音交互需求，对WebRTC栈进行重构，采用“中继+收发器”架构解决规模化部署难题。
语音AI需达到自然对话速度，否则会出现卡顿、延迟等问题，影响ChatGPT语音、Realtime API开发者等用户体验。为此，OpenAI提出三大核心要求：覆盖超9亿周活用户的全球触达、快速建立连接、低且稳定的媒体往返时间。
原WebRTC架构在规模化下遭遇三大约束：单端口单会话的媒体终止不适配现有基础设施、有状态的ICE和DTLS会话需要稳定归属、全球路由需降低首跳延迟，团队遂启动重构工作。
WebRTC作为开放标准，解决了NAT穿越、加密传输、编解码器协商等实时媒体传输难题，OpenAI依托该标准及成熟生态，可专注于连接媒体与AI模型的基础设施搭建。此外，WebRTC核心架构师Justin Uberti及Pion维护者Sean DuBois已加入OpenAI，助力实时AI技术发展。
在架构选择上，团队提及SFU架构适合多方通话等场景，但最终采用“中继+收发器”架构，在保留客户端标准WebRTC行为的同时，优化内部数据包路由。

文章版权归作者所有，未经允许请勿转载。

THE END

AI新闻

OpenAI重构WebRTC栈 实现大规模低延迟语音AI

Ads

OpenAI重构WebRTC栈实现大规模低延迟语音AI