谷歌推Gemma4系列MTP起草器推理速度最高提3倍

2026年5月5日，谷歌发布博文宣布为其当前最强开源AI模型Gemma 4系列推出多Token预测（MTP）起草器，借助推测解码架构，该模型推理速度最高可提升3倍。

Gemma 4发布仅数周下载量已突破6000万次，此次MTP起草器旨在不降低输出质量与推理逻辑的前提下突破推理效率极限。标准大语言模型推理常受内存带宽限制，存在延迟瓶颈，处理器传输参数耗时久，导致计算资源利用率不足。

谷歌采用推测解码技术，配对重型目标模型（如Gemma 4 31B）与轻量级MTP起草器：起草器利用闲置算力预测多个未来Token，目标模型并行验证这些令牌，若通过则可在单次前向传递中确认整个序列，大幅缩短生成时间。

实测数据显示，在Apple Silicon芯片上，当batch sizes设置为4至8时，Gemma 4 26B模型实现了约2.2倍的本地加速。开发者可利用该技术在个人电脑及消费级显卡上流畅运行复杂的离线编程与智能体工作流，同时显著降低边缘设备的能耗。

此次更新主要面向聊天机器人、编程助手、自主智能体及移动端应用等对低延迟要求极高的场景，开发者能在资源受限的环境中部署先进的语言模型，无需牺牲响应速度或计算精度，进一步拓展AI应用的边界。

文章版权归作者所有，未经允许请勿转载。

THE END

谷歌推Gemma4系列MTP起草器 推理速度最高提3倍