HuggingFace 每日AI论文速递

【周末特辑】1月第4周最火AI论文 | 强化学习优于监督微调,HLE挑战LLMs能力。


Listen Later

本期的 5 篇论文如下:

[00:35] TOP1(🔥53) | 🧠 SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training(监督微调记忆,强化学习泛化:基础模型后训练的比较研究)

[03:02] TOP2(🔥48) | 🧠 Humanity's Last Exam(人类最后的考试)

[05:21] TOP3(🔥47) | 🛡 GuardReasoner: Towards Reasoning-based LLM Safeguards(GuardReasoner:面向基于推理的LLM安全防护)

[07:44] TOP4(🔥45) | 🎙 Baichuan-Omni-1.5 Technical Report(百川全能1.5技术报告)

[10:07] TOP5(🔥42) | 📚 Qwen2.5-1M Technical Report(Qwen2.5-1M 技术报告)

【关注我们】

您还可以在以下平台找到我们,获得播客内容以外更多信息

小红书: AI速递

...more
View all episodesView all episodes
Download on the App Store

HuggingFace 每日AI论文速递By duan