June 06, 2025

2025.06.05 | 紧凑强大视觉模型；多阶段训练提升推理能力

11 minutes

本期的 15 篇论文如下：

[00:21] 🤖 MiMo-VL Technical Report（MiMo-VL 技术报告）

[01:14] 💡 Advancing Multimodal Reasoning: From Optimized Cold Start to Staged Reinforcement Learning（多模态推理进阶：从优化冷启动到分阶段强化学习）

[01:57] 🤖 AmbiK: Dataset of Ambiguous Tasks in Kitchen Environment（AmbiK：厨房环境中歧义性任务数据集）

[02:42] 🔄 CASS: Nvidia to AMD Transpilation with Data, Models, and Benchmark（CASS：基于数据、模型和基准的Nvidia到AMD的转译）

[03:20] 🔬 A Controllable Examination for Long-Context Language Models（长文本语言模型的可控评测）

[04:14] ✍ SuperWriter: Reflection-Driven Long-Form Generation with Large Language Models（SuperWriter：基于反思机制的LLM长文本生成）

[04:55] 🤔 MMR-V: What's Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos（MMR-V：未尽之言？视频中多模态深度推理的基准测试）

[05:37] 🔎 Establishing Trustworthy LLM Evaluation via Shortcut Neuron Analysis（基于捷径神经元分析建立可信赖的大语言模型评估体系）

[06:17] 🌐 Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation（航行者：用于可探索3D场景生成的长程和世界一致的视频扩散）

[07:04] 💡 IllumiCraft: Unified Geometry and Illumination Diffusion for Controllable Video Generation（IllumiCraft：用于可控视频生成的统一几何与光照扩散）

[07:49] 🎨 Image Editing As Programs with Diffusion Models（扩散模型驱动的图像编辑程序化）

[08:27] 🎯 $Ψ$-Sampler: Initial Particle Sampling for SMC-Based Inference-Time Reward Alignment in Score Models（Ψ-采样器：基于SMC的评分模型中用于推理时奖励对齐的初始粒子采样）

[09:04] 📊 VisCoder: Fine-Tuning LLMs for Executable Python Visualization Code Generation（VisCoder：微调大型语言模型以生成可执行的Python可视化代码）

[09:48] 💡 Unleashing the Reasoning Potential of Pre-trained LLMs by Critique Fine-Tuning on One Problem（通过在单一问题上进行评价微调来释放预训练大型语言模型的推理潜力）

[10:28] 🎬 LayerFlow: A Unified Model for Layer-aware Video Generation（LayerFlow：一种用于分层感知视频生成的统一模型）

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

...more

By duan

22 ratings