2026年5月5日,OpenAI联合AMD、Broadcom、Intel、Microsoft及NVIDIA发布MRC(Multipath Reliable Connection)协议,并通过Open Compute Project(OCP)向全行业开放,旨在提升大规模AI训练集群的GPU网络性能与韧性,加速前沿AI模型训练。
目前每周有超9亿人使用ChatGPT,OpenAI系统已成为全球AI核心基础设施。此前,OpenAI与合作伙伴共建三代超算的经验使其意识到,需重构网络设计以适配Stargate超算的规模需求,实现计算资源的高效利用。
大规模AI训练中,单步训练涉及数百万次数据传输,延迟会导致GPU闲置;集群规模扩大后,网络拥堵、链路及设备故障更频发,此前单故障常导致训练任务崩溃或停滞,同步预训练受影响尤甚。
MRC耗时两年开发,基于RDMA over Converged Ethernet(RoCE)协议,支持将单传输分散至数百路径,微秒级绕开故障,简化网络控制平面。该协议具备多平面高速网络冗余、自适应数据包喷洒消除核心拥堵、静态源路由避免路由故障等优势,可减少组件与功耗,提升性能稳定性。
Stargate超算由Oracle Cloud Infrastructure在美国德州Abilene建造,MRC是OpenAI计算战略的一部分,共享基础设施层标准可助力AI系统更高效、可靠地规模化发展。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END