September 03, 2025

【第338期】（中文）用图像思考：GRIT实现MLLM具身推理

8 minutes

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法方向，让大家跟着AI一起进步。

今天的主题是：

GRIT: Teaching MLLMs to Think with Images

Summary

这篇研究论文介绍了 GRIT（Grounded Reasoning with Images and Text），这是一种用于训练多模态大型语言模型（MLLMs）的新方法，使其能够通过图像进行思考。GRIT 引入了一种 基础推理范式，其中模型生成的推理链将自然语言与显式边界框坐标交织在一起，以指向输入图像中的相关区域。该方法利用名为 GRPO-GR 的强化学习算法进行训练，该算法专注于最终答案的准确性和 基础推理输出的格式，从而无需复杂的推理链或边界框注释数据。结果显示，GRIT 具有卓越的数据效率，仅需少量训练样本即可让 MLLMs 统一其 基础和推理能力，在各种视觉问答和指代表达理解任务中表现出更高的准确性。该研究还通过定性和定量分析了生成的边界框如何与自然语言内容互动，并探讨了扩展训练数据的影响。

原文链接：https://arxiv.org/abs/2505.15879

...more