何恺明发布ELF语言模型:105M参数 性能超主流

2026年5月13日,顶级CV学者何恺明团队发布首个语言模型ELF,该模型未采用GPT类自回归范式,而是采用连续扩散语言模型路线。

ELF仅用105M参数、45B训练token、32步采样,就在OpenWebText任务上将生成困惑度压至24,该指标值越低代表生成文本越自然。对比主流扩散语言模型,ELF采样步数、训练token均少一个数量级,性能却更优。

此前扩散语言模型分为离散派与连续派,离散派占据上风。ELF首次将去噪全过程留在连续embedding空间,仅最后一步将结果离散化为token,无需额外训练解码器,解决了过往连续路线的痛点。

具体实现上,ELF用T5预训练encoder将token转为连续embedding(仅训练阶段使用),在连续空间采用x-prediction方式做Flow Matching去噪,最后一步通过同一网络完成连续到离散的解码,还引入图像领域的CFG技术优化生成效果。

实验显示,ELF在WMT14机器翻译、XSum文本摘要等条件生成任务上,也稳定超过现有扩散语言模型,甚至优于部分自回归基线。

该论文由胡珂雅、Linlu Qiu等共同作为第一作者,团队成员包括MIT博士生、清华姚班本科生等,何恺明为核心作者之一。

© 版权声明
THE END
喜欢就支持一下吧
分享