OpenAI联合厂商发布MRC协议加速AI超算训练

2026年5月5日，OpenAI联合AMD、Broadcom、Intel、Microsoft及NVIDIA发布MRC（Multipath Reliable Connection）协议，并通过Open Compute Project（OCP）向全行业开放，旨在提升大规模AI训练集群的GPU网络性能与韧性，加速前沿AI模型训练。

目前每周有超9亿人使用ChatGPT，OpenAI系统已成为全球AI核心基础设施。此前，OpenAI与合作伙伴共建三代超算的经验使其意识到，需重构网络设计以适配Stargate超算的规模需求，实现计算资源的高效利用。

大规模AI训练中，单步训练涉及数百万次数据传输，延迟会导致GPU闲置；集群规模扩大后，网络拥堵、链路及设备故障更频发，此前单故障常导致训练任务崩溃或停滞，同步预训练受影响尤甚。

MRC耗时两年开发，基于RDMA over Converged Ethernet（RoCE）协议，支持将单传输分散至数百路径，微秒级绕开故障，简化网络控制平面。该协议具备多平面高速网络冗余、自适应数据包喷洒消除核心拥堵、静态源路由避免路由故障等优势，可减少组件与功耗，提升性能稳定性。

Stargate超算由Oracle Cloud Infrastructure在美国德州Abilene建造，MRC是OpenAI计算战略的一部分，共享基础设施层标准可助力AI系统更高效、可靠地规模化发展。

文章版权归作者所有，未经允许请勿转载。

THE END

AI新闻

OpenAI联合厂商发布MRC协议 加速AI超算训练

Ads

OpenAI联合厂商发布MRC协议加速AI超算训练