January 23, 2025

2025.01.23 | DeepSeek-R1强化学习提升推理能力，多智能体框架实现虚拟电影自动化

6 minutes

本期的 9 篇论文如下：

[00:24] 🧠 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning（DeepSeek-R1：通过强化学习激励大语言模型的推理能力）

[01:07] 🎬 FilmAgent: A Multi-Agent Framework for End-to-End Film Automation in Virtual 3D Spaces（FilmAgent：虚拟3D空间中的端到端电影自动化多智能体框架）

[01:48] 🔄 Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback（测试时偏好优化：通过迭代文本反馈实现即时对齐）

[02:25] 👁 VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding（VideoLLaMA 3：面向图像与视频理解的前沿多模态基础模型）

[03:03] 🚀 Kimi k1.5: Scaling Reinforcement Learning with LLMs（Kimi k1.5：利用大语言模型扩展强化学习）

[03:40] 🧠 Autonomy-of-Experts Models（专家自主模型）

[04:18] 🏆 Pairwise RM: Perform Best-of-N Sampling with Knockout Tournament（成对奖励模型：通过淘汰赛进行最佳N采样）

[05:01] ✂ O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning（O1-Pruner：基于长度协调的微调用于O1类推理剪枝）

[05:34] 🤖 IntellAgent: A Multi-Agent Framework for Evaluating Conversational AI Systems（IntellAgent：用于评估对话AI系统的多智能体框架）

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

...more

View all episodes

By duan

22 ratings

January 23, 2025

2025.01.23 | DeepSeek-R1强化学习提升推理能力，多智能体框架实现虚拟电影自动化

6 minutes

本期的 9 篇论文如下：

[00:24] 🧠 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning（DeepSeek-R1：通过强化学习激励大语言模型的推理能力）

[01:07] 🎬 FilmAgent: A Multi-Agent Framework for End-to-End Film Automation in Virtual 3D Spaces（FilmAgent：虚拟3D空间中的端到端电影自动化多智能体框架）

[01:48] 🔄 Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback（测试时偏好优化：通过迭代文本反馈实现即时对齐）

[02:25] 👁 VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding（VideoLLaMA 3：面向图像与视频理解的前沿多模态基础模型）

[03:03] 🚀 Kimi k1.5: Scaling Reinforcement Learning with LLMs（Kimi k1.5：利用大语言模型扩展强化学习）

[03:40] 🧠 Autonomy-of-Experts Models（专家自主模型）

[04:18] 🏆 Pairwise RM: Perform Best-of-N Sampling with Knockout Tournament（成对奖励模型：通过淘汰赛进行最佳N采样）

[05:01] ✂ O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning（O1-Pruner：基于长度协调的微调用于O1类推理剪枝）

[05:34] 🤖 IntellAgent: A Multi-Agent Framework for Evaluating Conversational AI Systems（IntellAgent：用于评估对话AI系统的多智能体框架）

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

...more

More shows like HuggingFace 每日AI论文速递

View all

硅谷101|中国版

56 Listeners

商业就是这样

292 Listeners

声动早咖啡

293 Listeners

思文，败类

157 Listeners

不开玩笑 Jokes Aside

136 Listeners

人民公园说AI

7 Listeners

數創實驗室 - AI時代的學習指南

1 Listeners

AI可可AI生活

0 Listeners

Share 2025.01.23 | DeepSeek-R1强化学习提升推理能力，多智能体框架实现虚拟电影自动化

Sign up to save your podcasts

2025.01.23 | DeepSeek-R1强化学习提升推理能力，多智能体框架实现虚拟电影自动化

2025.01.23 | DeepSeek-R1强化学习提升推理能力，多智能体框架实现虚拟电影自动化

More shows like HuggingFace 每日AI论文速递

硅谷101|中国版

商业就是这样

声动早咖啡

思文，败类

不开玩笑 Jokes Aside

人民公园说AI

數創實驗室 - AI時代的學習指南

AI可可AI生活