2026年5月4日,OpenAI技术团队发布技术博文,介绍其为满足超9亿周活跃用户的低延迟语音交互需求,对WebRTC栈进行重构,采用“中继+收发器”架构解决规模化部署难题。
语音AI需达到自然对话速度,否则会出现卡顿、延迟等问题,影响ChatGPT语音、Realtime API开发者等用户体验。为此,OpenAI提出三大核心要求:覆盖超9亿周活用户的全球触达、快速建立连接、低且稳定的媒体往返时间。
原WebRTC架构在规模化下遭遇三大约束:单端口单会话的媒体终止不适配现有基础设施、有状态的ICE和DTLS会话需要稳定归属、全球路由需降低首跳延迟,团队遂启动重构工作。
WebRTC作为开放标准,解决了NAT穿越、加密传输、编解码器协商等实时媒体传输难题,OpenAI依托该标准及成熟生态,可专注于连接媒体与AI模型的基础设施搭建。此外,WebRTC核心架构师Justin Uberti及Pion维护者Sean DuBois已加入OpenAI,助力实时AI技术发展。
在架构选择上,团队提及SFU架构适合多方通话等场景,但最终采用“中继+收发器”架构,在保留客户端标准WebRTC行为的同时,优化内部数据包路由。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END