Seventy3

【第296期】(中文)d1: 扩散LLM的强化学习推理


Listen Later

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法方向,让大家跟着AI一起进步。

今天的主题是:

d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning

Summary

这篇研究论文探讨了如何提升扩散大语言模型(dLLMs)的推理能力,此类模型与传统的自回归(AR)LLMs不同,采用非自回归的粗到细文本生成方式。作者提出了 d1 框架,通过结合监督微调(SFT)和一种名为 diffu-GRPO 的新型强化学习(RL)算法来训练预训练的掩码 dLLMs。实验结果表明,与基线模型及单独的 SFT 或 diffu-GRPO 方法相比,d1 显著提升了模型在数学和逻辑推理任务上的表现。此外,该研究还讨论了随机掩码等设计选择如何提高训练效率和稳定性,并指出了未来研究方向,例如开发更高效的推理策略以进一步扩展 RL 训练。

原文链接:https://arxiv.org/abs/2504.12216

...more
View all episodesView all episodes
Download on the App Store

Seventy3By 任雨山