MiMo-VL 简介
MiMo-VL (小米多模态视觉语言模型) 是由小米开发的一系列多模态视觉语言模型,旨在提升通用视觉理解和多模态推理能力。 MiMo-VL 模型以其紧凑的规模和强大的性能而著称,尤其是在需要复杂推理的任务中. 该系列模型包括 MiMo-VL-7B-SFT 和 MiMo-VL-7B-RL 两个主要版本,并已开源供社区使用.
MiMo-VL 最新消息
- 2025 年 5 月 29 日: 小米开源 MiMo-VL-7B 系列模型,包括 SFT 和 RL 版本的检查点.
- 2025 年 5 月 30 日: MiMo-VL-7B 模型在多模态推理任务中表现出色,性能超越参数量更大的闭源模型.
- 2025 年 6 月 1 日: YouTube 上发布了关于 Xiaomi MiMo-VL 的介绍视频,展示了其强大的视觉理解和多模态推理能力.
MiMo-VL 概述
MiMo-VL 系列模型,特别是 MiMo-VL-7B,专注于视觉语言理解和多模态推理。该模型主要包含三个组成部分:
- 原生分辨率 ViT 编码器: 保留细粒度的视觉细节.
- MLP 投影器: 用于高效的跨模态对齐.
- MiMo-7B 语言模型: 针对复杂的推理任务进行了优化.
MiMo-VL 历史和版本
MiMo-VL-7B 的开发过程包括两个阶段:
- 预训练阶段:
- 包括投影器预热、视觉语言对齐、通用多模态预训练和长上下文监督微调 (SFT) 四个阶段.
- 该阶段生成 MiMo-VL-7B-SFT 模型.
- 后训练阶段:
- 引入混合在线强化学习 (MORL) 框架,整合感知准确性、视觉基础精度、逻辑推理能力和人/AI 偏好等多种奖励信号.
- 该阶段生成 MiMo-VL-7B-RL 模型.
MiMo-VL 系列模型的主要版本包括:
- MiMo-VL-7B-SFT: 经过监督微调的视觉语言模型.
- MiMo-VL-7B-RL: 经过混合在线强化学习训练的视觉语言模型,具有更强的推理能力.
MiMo-VL 主要特点
- 强大的多模态推理能力: MiMo-VL-7B 在多模态推理任务中表现出色,甚至超越了参数量更大的模型.
- 紧凑的模型规模: 该模型只有 70 亿参数,但性能却非常强大.
- 高效的跨模态对齐: MLP 投影器实现了高效的视觉和语言特征对齐.
- 保留细粒度视觉细节: 原生分辨率 ViT 编码器能够捕获图像中的细微信息.
- 开源: MiMo-VL 模型已开源,方便研究人员和开发者使用.
MiMo-VL 性能
MiMo-VL-7B-RL 在 40 个评估任务中的 35 个任务上优于 Qwen2.5-VL-7B,并在 OlympiadBench 上取得了 59.4 分的成绩,超越了参数量高达 78B 的模型. 在内部评估数据集和 GPT-4o 的评判下,MiMo-VL-7B-RL 在所有评估的开源视觉语言模型中取得了最高的 Elo 评分,在 7B 到 72B 参数量的模型中排名第一.
MiMo-VL 应用
MiMo-VL 模型可应用于各种需要视觉理解和多模态推理的任务,例如:
- 通用视觉理解
- 多模态推理
- 图形用户界面 (GUI) 理解和基础
MiMo-VL 开源地址
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END
暂无评论内容