Seventy3

【第248期】VisualThinker-R1-Zero: Multimodal Reasoning via RL


Listen Later

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法方向,让大家跟着AI一起进步。

今天的主题是:R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model

Summary

本研究报告成功复制了 DeepSeek-R1 模型中利用强化学习实现自主推理的显著特征,即所谓的“顿悟时刻”和响应长度的增加,这次是在一个较小的多模态模型上实现。通过直接在非 SFT (监督微调) Qwen2-VL-2B 模型上应用强化学习,研究人员观察到模型在视觉推理任务中展现出自我反思和更长的响应,从而显著提高了性能。报告还探讨了在经过指令微调的模型上应用强化学习所面临的挑战,发现这往往会导致肤浅的推理模式。研究人员开源了他们的代码,以促进对多模态推理未来研究。

原文链接:https://arxiv.org/abs/2503.05132

...more
View all episodesView all episodes
Download on the App Store

Seventy3By 任雨山