February 10, 2025

多模态奖励模型：IXC-2.5-Reward

10 minutes

探讨 InternLM-XComposer2.5-Reward (IXC-2.5-Reward)，一个用于大型视觉语言模型 (LVLM) 的多模态奖励模型，它通过强化学习或测试时缩放来提升生成质量。该模型在多模态基准测试中表现出色，并在强化学习训练、测试时缩放和数据清洗方面具有应用。

...more

By weedge

February 10, 2025

10 minutes

...more

Share 多模态奖励模型：IXC-2.5-Reward