MiMo-VL - 小米多模态视觉语言模型

MiMo-VL 简介

MiMo-VL (小米多模态视觉语言模型) 是由小米开发的一系列多模态视觉语言模型，旨在提升通用视觉理解和多模态推理能力。 MiMo-VL 模型以其紧凑的规模和强大的性能而著称，尤其是在需要复杂推理的任务中. 该系列模型包括 MiMo-VL-7B-SFT 和 MiMo-VL-7B-RL 两个主要版本，并已开源供社区使用.

MiMo-VL 最新消息

2025 年 5 月 29 日: 小米开源 MiMo-VL-7B 系列模型，包括 SFT 和 RL 版本的检查点.
2025 年 5 月 30 日: MiMo-VL-7B 模型在多模态推理任务中表现出色，性能超越参数量更大的闭源模型.
2025 年 6 月 1 日: YouTube 上发布了关于 Xiaomi MiMo-VL 的介绍视频，展示了其强大的视觉理解和多模态推理能力.

MiMo-VL 概述

MiMo-VL 系列模型，特别是 MiMo-VL-7B，专注于视觉语言理解和多模态推理。该模型主要包含三个组成部分：

原生分辨率 ViT 编码器: 保留细粒度的视觉细节.
MLP 投影器: 用于高效的跨模态对齐.
MiMo-7B 语言模型: 针对复杂的推理任务进行了优化.

MiMo-VL 历史和版本

MiMo-VL-7B 的开发过程包括两个阶段：

预训练阶段:
- 包括投影器预热、视觉语言对齐、通用多模态预训练和长上下文监督微调 (SFT) 四个阶段.
- 该阶段生成 MiMo-VL-7B-SFT 模型.
后训练阶段:
- 引入混合在线强化学习 (MORL) 框架，整合感知准确性、视觉基础精度、逻辑推理能力和人/AI 偏好等多种奖励信号.
- 该阶段生成 MiMo-VL-7B-RL 模型.

MiMo-VL 系列模型的主要版本包括：

MiMo-VL-7B-SFT: 经过监督微调的视觉语言模型.
MiMo-VL-7B-RL: 经过混合在线强化学习训练的视觉语言模型，具有更强的推理能力.

MiMo-VL 主要特点

强大的多模态推理能力: MiMo-VL-7B 在多模态推理任务中表现出色，甚至超越了参数量更大的模型.
紧凑的模型规模: 该模型只有 70 亿参数，但性能却非常强大.
高效的跨模态对齐: MLP 投影器实现了高效的视觉和语言特征对齐.
保留细粒度视觉细节: 原生分辨率 ViT 编码器能够捕获图像中的细微信息.
开源: MiMo-VL 模型已开源，方便研究人员和开发者使用.

MiMo-VL 性能

MiMo-VL-7B-RL 在 40 个评估任务中的 35 个任务上优于 Qwen2.5-VL-7B，并在 OlympiadBench 上取得了 59.4 分的成绩，超越了参数量高达 78B 的模型. 在内部评估数据集和 GPT-4o 的评判下，MiMo-VL-7B-RL 在所有评估的开源视觉语言模型中取得了最高的 Elo 评分，在 7B 到 72B 参数量的模型中排名第一.