Share 【第247期】Vision-R1：推理视觉大模型

Copy link

June 04, 2025

【第247期】Vision-R1：推理视觉大模型

16 minutes

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法方向，让大家跟着AI一起进步。

进群添加小助手微信：seventy3_podcast

备注：小宇宙

今天的主题是：Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

Summary

本研究介绍 Vision-R1，这是一种多模态大型语言模型 (MLLM)，旨在增强其推理能力，尤其是解决数学问题。该方法通过结合冷启动初始化和强化学习 (RL) 来实现这一目标。具体来说，首先构建一个高质量的多模态思维链 (CoT) 数据集，然后利用一种名为渐进思维抑制训练 (PTST) 的 RL 策略，通过分阶段放宽对推理长度的限制来克服过度思考问题。实验结果表明，Vision-R1 在多模态数学推理基准上表现出色，即使只有 7B 参数，也能达到与 70B+ 参数的强大 MLLM 相媲美的性能。

原文链接：https://arxiv.org/abs/2503.06749

...more