AI Podcast

AI Radio FM - 强化学习与音频问答


Listen Later

本期播客探讨了强化学习(RL)在音频问答(AQA)任务中的应用,以及如何通过小组相对策略优化(GRPO)算法提升大型音频语言模型(LALM)的性能。研究表明,即使在有限数据集下,RL也能显著优于监督微调(SFT),并揭示了LALM在音频理解和推理方面仍有巨大提升空间。
...more
View all episodesView all episodes
Download on the App Store

AI PodcastBy weedge