September 11, 2025

2025.09.11 | 强化学习提升推理能力；奖励缩放优化视觉生成

5 minutes

本期的 10 篇论文如下：

[00:24] 🧠 A Survey of Reinforcement Learning for Large Reasoning Models（大型推理模型的强化学习综述）

[00:45] 🔄 RewardDance: Reward Scaling in Visual Generation（RewardDance：视觉生成中的奖励缩放）

[01:08] 🌐 3D and 4D World Modeling: A Survey（3D和4D世界建模：一项综述）

[01:41] 🤖 AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning（AgentGym-RL: 通过多轮强化学习训练用于长视野决策制定的LLM智能体）

[02:08] 🧩 P3-SAM: Native 3D Part Segmentation（P3-SAM：原生3D部分分割）

[02:40] 🌐 Hunyuan-MT Technical Report（Hunyuan-MT技术报告）

[03:08] ⚠ So let's replace this phrase with insult... Lessons learned from generation of toxic texts with LLMs（从LLM生成有毒文本中吸取的经验教训）

[03:44] 🤖 EnvX: Agentize Everything with Agentic AI（EnvX：使用代理式AI实现万物代理化）

[04:13] 🤔 The Majority is not always right: RL training for solution aggregation（多数并不总是正确：用于解决方案聚合的强化学习训练）

[04:33] 🤖 HumanAgencyBench: Scalable Evaluation of Human Agency Support in AI Assistants（HumanAgencyBench：AI助手中人类代理支持的规模化评估）

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

...more

View all episodes

By duan

22 ratings

September 11, 2025

2025.09.11 | 强化学习提升推理能力；奖励缩放优化视觉生成

5 minutes

本期的 10 篇论文如下：

[00:24] 🧠 A Survey of Reinforcement Learning for Large Reasoning Models（大型推理模型的强化学习综述）

[00:45] 🔄 RewardDance: Reward Scaling in Visual Generation（RewardDance：视觉生成中的奖励缩放）

[01:08] 🌐 3D and 4D World Modeling: A Survey（3D和4D世界建模：一项综述）

[02:08] 🧩 P3-SAM: Native 3D Part Segmentation（P3-SAM：原生3D部分分割）

[02:40] 🌐 Hunyuan-MT Technical Report（Hunyuan-MT技术报告）

[03:08] ⚠ So let's replace this phrase with insult... Lessons learned from generation of toxic texts with LLMs（从LLM生成有毒文本中吸取的经验教训）

[03:44] 🤖 EnvX: Agentize Everything with Agentic AI（EnvX：使用代理式AI实现万物代理化）

[04:13] 🤔 The Majority is not always right: RL training for solution aggregation（多数并不总是正确：用于解决方案聚合的强化学习训练）

[04:33] 🤖 HumanAgencyBench: Scalable Evaluation of Human Agency Support in AI Assistants（HumanAgencyBench：AI助手中人类代理支持的规模化评估）

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

...more

More shows like HuggingFace 每日AI论文速递

View all

硅谷101|中国版

56 Listeners

商业就是这样

291 Listeners

声动早咖啡

294 Listeners

思文，败类

156 Listeners

不开玩笑 Jokes Aside

135 Listeners

人民公园说AI

7 Listeners

數創實驗室 - AI時代的學習指南

1 Listeners

AI可可AI生活

0 Listeners

Share 2025.09.11 | 强化学习提升推理能力；奖励缩放优化视觉生成

Sign up to save your podcasts

2025.09.11 | 强化学习提升推理能力；奖励缩放优化视觉生成

2025.09.11 | 强化学习提升推理能力；奖励缩放优化视觉生成

More shows like HuggingFace 每日AI论文速递

硅谷101|中国版

商业就是这样

声动早咖啡

思文，败类

不开玩笑 Jokes Aside

人民公园说AI

數創實驗室 - AI時代的學習指南

AI可可AI生活