Ads

MiMo-VL – 小米多模态视觉语言模型

MiMo-VL – 小米多模态视觉语言模型

MiMo-VL 简介

MiMo-VL (小米多模态视觉语言模型) 是由小米开发的一系列多模态视觉语言模型,旨在提升通用视觉理解和多模态推理能力。 MiMo-VL 模型以其紧凑的规模和强大的性能而著称,尤其是在需要复杂推理的任务中. 该系列模型包括 MiMo-VL-7B-SFT 和 MiMo-VL-7B-RL 两个主要版本,并已开源供社区使用.

MiMo-VL 最新消息

  • 2025 年 5 月 29 日: 小米开源 MiMo-VL-7B 系列模型,包括 SFT 和 RL 版本的检查点.
  • 2025 年 5 月 30 日: MiMo-VL-7B 模型在多模态推理任务中表现出色,性能超越参数量更大的闭源模型.
  • 2025 年 6 月 1 日: YouTube 上发布了关于 Xiaomi MiMo-VL 的介绍视频,展示了其强大的视觉理解和多模态推理能力.

MiMo-VL 概述

MiMo-VL 系列模型,特别是 MiMo-VL-7B,专注于视觉语言理解和多模态推理。该模型主要包含三个组成部分:

  1. 原生分辨率 ViT 编码器: 保留细粒度的视觉细节.
  2. MLP 投影器: 用于高效的跨模态对齐.
  3. MiMo-7B 语言模型: 针对复杂的推理任务进行了优化.

MiMo-VL 历史和版本

MiMo-VL-7B 的开发过程包括两个阶段:

  1. 预训练阶段:
    • 包括投影器预热、视觉语言对齐、通用多模态预训练和长上下文监督微调 (SFT) 四个阶段.
    • 该阶段生成 MiMo-VL-7B-SFT 模型.
  2. 后训练阶段:
    • 引入混合在线强化学习 (MORL) 框架,整合感知准确性、视觉基础精度、逻辑推理能力和人/AI 偏好等多种奖励信号.
    • 该阶段生成 MiMo-VL-7B-RL 模型.

MiMo-VL 系列模型的主要版本包括:

  • MiMo-VL-7B-SFT: 经过监督微调的视觉语言模型.
  • MiMo-VL-7B-RL: 经过混合在线强化学习训练的视觉语言模型,具有更强的推理能力.

MiMo-VL 主要特点

  • 强大的多模态推理能力: MiMo-VL-7B 在多模态推理任务中表现出色,甚至超越了参数量更大的模型.
  • 紧凑的模型规模: 该模型只有 70 亿参数,但性能却非常强大.
  • 高效的跨模态对齐: MLP 投影器实现了高效的视觉和语言特征对齐.
  • 保留细粒度视觉细节: 原生分辨率 ViT 编码器能够捕获图像中的细微信息.
  • 开源: MiMo-VL 模型已开源,方便研究人员和开发者使用.

MiMo-VL 性能

MiMo-VL-7B-RL 在 40 个评估任务中的 35 个任务上优于 Qwen2.5-VL-7B,并在 OlympiadBench 上取得了 59.4 分的成绩,超越了参数量高达 78B 的模型. 在内部评估数据集和 GPT-4o 的评判下,MiMo-VL-7B-RL 在所有评估的开源视觉语言模型中取得了最高的 Elo 评分,在 7B 到 72B 参数量的模型中排名第一.

MiMo-VL 应用

MiMo-VL 模型可应用于各种需要视觉理解和多模态推理的任务,例如:

  • 通用视觉理解
  • 多模态推理
  • 图形用户界面 (GUI) 理解和基础

MiMo-VL 开源地址

© 版权声明
THE END
喜欢就支持一下吧
分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情

    暂无评论内容