December 18, 2025

2025.12.18 | 校准步长奖励砍成本；扩散草稿自回归验证提速

10 minutes

本期的 14 篇论文如下：

[00:25] 🤖 Step-GUI Technical Report（Step-GUI技术报告）

[00:59] ⚡ DEER: Draft with Diffusion, Verify with Autoregressive Models（DEER：基于扩散模型生成草稿，基于自回归模型验证）

[01:31] ⚡ Fast and Accurate Causal Parallel Decoding using Jacobi Forcing（使用雅可比强制实现快速准确的因果并行解码）

[02:10] 🚀 HyperVL: An Efficient and Dynamic Multimodal Large Language Model for Edge Devices（HyperVL：面向边缘设备的高效动态多模态大语言模型）

[02:48] 🎬 IC-Effect: Precise and Efficient Video Effects Editing via In-Context Learning（IC-Effect：基于上下文学习的精确高效视频特效编辑）

[03:30] 🔍 Skyra: AI-Generated Video Detection via Grounded Artifact Reasoning（Skyra：基于可感知视觉伪影推理的AI生成视频检测）

[04:03] 🧠 Universal Reasoning Model（通用推理模型）

[04:45] 🔍 Robust and Calibrated Detection of Authentic Multimedia Content（鲁棒且可校准的真实多媒体内容检测）

[05:33] 🧭 Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning（大型语言模型能否引导自身探索？基于梯度引导的强化学习用于LLM推理）

[06:14] 🌍 FiNERweb: Datasets and Artifacts for Scalable Multilingual Named Entity Recognition（FiNERweb：用于可扩展多语言命名实体识别的数据集与工具集）

[06:54] 📊 MMSI-Video-Bench: A Holistic Benchmark for Video-Based Spatial Intelligence（MMSI-Video-Bench：一个面向视频空间智能的综合性基准测试）

[07:47] 🔄 DiffusionVL: Translating Any Autoregressive Models into Diffusion Vision Language Models（DiffusionVL：将任意自回归模型转化为扩散视觉语言模型）

[08:24] 🧠 SAGE: Training Smart Any-Horizon Agents for Long Video Reasoning with Reinforcement Learning（SAGE：通过强化学习训练智能任意时域代理以进行长视频推理）

[09:02] 🎬 End-to-End Training for Autoregressive Video Diffusion via Self-Resampling（通过自重采样实现自回归视频扩散模型的端到端训练）

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

...more

View all episodes

By duan

22 ratings

December 18, 2025

2025.12.18 | 校准步长奖励砍成本；扩散草稿自回归验证提速

10 minutes

本期的 14 篇论文如下：

[00:25] 🤖 Step-GUI Technical Report（Step-GUI技术报告）

[00:59] ⚡ DEER: Draft with Diffusion, Verify with Autoregressive Models（DEER：基于扩散模型生成草稿，基于自回归模型验证）

[01:31] ⚡ Fast and Accurate Causal Parallel Decoding using Jacobi Forcing（使用雅可比强制实现快速准确的因果并行解码）

[02:10] 🚀 HyperVL: An Efficient and Dynamic Multimodal Large Language Model for Edge Devices（HyperVL：面向边缘设备的高效动态多模态大语言模型）

[02:48] 🎬 IC-Effect: Precise and Efficient Video Effects Editing via In-Context Learning（IC-Effect：基于上下文学习的精确高效视频特效编辑）

[03:30] 🔍 Skyra: AI-Generated Video Detection via Grounded Artifact Reasoning（Skyra：基于可感知视觉伪影推理的AI生成视频检测）

[04:03] 🧠 Universal Reasoning Model（通用推理模型）

[04:45] 🔍 Robust and Calibrated Detection of Authentic Multimedia Content（鲁棒且可校准的真实多媒体内容检测）

[06:14] 🌍 FiNERweb: Datasets and Artifacts for Scalable Multilingual Named Entity Recognition（FiNERweb：用于可扩展多语言命名实体识别的数据集与工具集）

[06:54] 📊 MMSI-Video-Bench: A Holistic Benchmark for Video-Based Spatial Intelligence（MMSI-Video-Bench：一个面向视频空间智能的综合性基准测试）

[07:47] 🔄 DiffusionVL: Translating Any Autoregressive Models into Diffusion Vision Language Models（DiffusionVL：将任意自回归模型转化为扩散视觉语言模型）

[08:24] 🧠 SAGE: Training Smart Any-Horizon Agents for Long Video Reasoning with Reinforcement Learning（SAGE：通过强化学习训练智能任意时域代理以进行长视频推理）

[09:02] 🎬 End-to-End Training for Autoregressive Video Diffusion via Self-Resampling（通过自重采样实现自回归视频扩散模型的端到端训练）

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

...more

More shows like HuggingFace 每日AI论文速递

View all

硅谷101|中国版

56 Listeners

商业就是这样

291 Listeners

声动早咖啡

295 Listeners

思文，败类

156 Listeners

不开玩笑 Jokes Aside

135 Listeners

人民公园说AI

7 Listeners

數創實驗室 - AI時代的學習指南

1 Listeners

AI可可AI生活

0 Listeners

Share 2025.12.18 | 校准步长奖励砍成本；扩散草稿自回归验证提速

Sign up to save your podcasts

2025.12.18 | 校准步长奖励砍成本；扩散草稿自回归验证提速

2025.12.18 | 校准步长奖励砍成本；扩散草稿自回归验证提速

More shows like HuggingFace 每日AI论文速递

硅谷101|中国版

商业就是这样

声动早咖啡

思文，败类

不开玩笑 Jokes Aside

人民公园说AI

數創實驗室 - AI時代的學習指南

AI可可AI生活