March 17, 2025

AI Radio FM - 强化学习与音频问答

3 minutes

本期播客探讨了强化学习（RL）在音频问答（AQA）任务中的应用，以及如何通过小组相对策略优化（GRPO）算法提升大型音频语言模型（LALM）的性能。研究表明，即使在有限数据集下，RL也能显著优于监督微调（SFT），并揭示了LALM在音频理解和推理方面仍有巨大提升空间。

...more

By weedge

March 17, 2025

3 minutes

...more

Share AI Radio FM - 强化学习与音频问答