HuggingFace 每日AI论文速递

2025.09.11 | 强化学习提升推理能力;奖励缩放优化视觉生成


Listen Later

本期的 10 篇论文如下:

[00:24] 🧠 A Survey of Reinforcement Learning for Large Reasoning Models(大型推理模型的强化学习综述)

[00:45] 🔄 RewardDance: Reward Scaling in Visual Generation(RewardDance:视觉生成中的奖励缩放)

[01:08] 🌐 3D and 4D World Modeling: A Survey(3D和4D世界建模:一项综述)

[01:41] 🤖 AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning(AgentGym-RL: 通过多轮强化学习训练用于长视野决策制定的LLM智能体)

[02:08] 🧩 P3-SAM: Native 3D Part Segmentation(P3-SAM:原生3D部分分割)

[02:40] 🌐 Hunyuan-MT Technical Report(Hunyuan-MT技术报告)

[03:08] ⚠ So let's replace this phrase with insult... Lessons learned from generation of toxic texts with LLMs(从LLM生成有毒文本中吸取的经验教训)

[03:44] 🤖 EnvX: Agentize Everything with Agentic AI(EnvX:使用代理式AI实现万物代理化)

[04:13] 🤔 The Majority is not always right: RL training for solution aggregation(多数并不总是正确:用于解决方案聚合的强化学习训练)

[04:33] 🤖 HumanAgencyBench: Scalable Evaluation of Human Agency Support in AI Assistants(HumanAgencyBench:AI助手中人类代理支持的规模化评估)

【关注我们】

您还可以在以下平台找到我们,获得播客内容以外更多信息

小红书: AI速递

...more
View all episodesView all episodes
Download on the App Store

HuggingFace 每日AI论文速递By duan

  • 5
  • 5
  • 5
  • 5
  • 5

5

2 ratings


More shows like HuggingFace 每日AI论文速递

View all
硅谷101|中国版 by 泓君Jane

硅谷101|中国版

56 Listeners

商业就是这样 by 商业就是这样

商业就是这样

291 Listeners

声动早咖啡 by 声动活泼

声动早咖啡

294 Listeners

思文,败类 by 思文败类

思文,败类

156 Listeners

不开玩笑 Jokes Aside by 不开玩笑JokesAside

不开玩笑 Jokes Aside

135 Listeners

人民公园说AI by JustSayAI

人民公园说AI

7 Listeners

數創實驗室 - AI時代的學習指南 by Vincent在數創

數創實驗室 - AI時代的學習指南

1 Listeners

AI可可AI生活 by fly51fly

AI可可AI生活

0 Listeners