Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法方向,让大家跟着AI一起进步。
今天的主题是:Vision-R1: Evolving Human-Free Alignment in Large Vision-Language Models via Vision-Guided Reinforcement Learning
Summary
本研究提出Vision-R1,这是一种旨在通过强化学习(RL)提高多模态大型语言模型(MLLMs)推理能力的方法。文章解决了现有MLLMs在复杂推理任务中表现不佳的问题,因为它们缺乏人类认知过程中的结构化推理步骤。Vision-R1通过利用现有MLLM和DeepSeek-R1构建高质量的多模态思维链(CoT)数据集进行冷启动初始化。为了解决优化挑战,研究者引入了渐进式思维抑制训练(PTST)策略,该策略在RL训练早期阶段抑制思维长度,并随着训练的进行逐渐放宽这些限制。实验结果表明,Vision-R1在数学推理基准测试中取得了显著的性能提升,其7B参数的模型表现可与参数量大于70B的最强MLLMs相媲美,展现出其强大的推理能力。
原文链接:https://arxiv.org/abs/2503.18013