何恺明发布ELF语言模型：105M参数性能超主流

2026年5月13日，顶级CV学者何恺明团队发布首个语言模型ELF，该模型未采用GPT类自回归范式，而是采用连续扩散语言模型路线。

ELF仅用105M参数、45B训练token、32步采样，就在OpenWebText任务上将生成困惑度压至24，该指标值越低代表生成文本越自然。对比主流扩散语言模型，ELF采样步数、训练token均少一个数量级，性能却更优。

此前扩散语言模型分为离散派与连续派，离散派占据上风。ELF首次将去噪全过程留在连续embedding空间，仅最后一步将结果离散化为token，无需额外训练解码器，解决了过往连续路线的痛点。

具体实现上，ELF用T5预训练encoder将token转为连续embedding（仅训练阶段使用），在连续空间采用x-prediction方式做Flow Matching去噪，最后一步通过同一网络完成连续到离散的解码，还引入图像领域的CFG技术优化生成效果。

实验显示，ELF在WMT14机器翻译、XSum文本摘要等条件生成任务上，也稳定超过现有扩散语言模型，甚至优于部分自回归基线。

该论文由胡珂雅、Linlu Qiu等共同作为第一作者，团队成员包括MIT博士生、清华姚班本科生等，何恺明为核心作者之一。

文章版权归作者所有，未经允许请勿转载。

THE END

何恺明发布ELF语言模型：105M参数 性能超主流