August 18, 2025

2025.08.18 | 超越图像思考；自搜索强化

6 minutes

本期的 13 篇论文如下：

[00:19] 💡 Thyme: Think Beyond Images（Thyme：超越图像的思考）

[00:48] 🧠 SSRL: Self-Search Reinforcement Learning（SSRL：自搜索强化学习）

[01:16] 🚀 DINOv3（DINOv3：视觉基础模型新里程碑）

[01:42] 🔍 PaperRegister: Boosting Flexible-grained Paper Search via Hierarchical Register Indexing（PaperRegister：通过分层寄存器索引提升灵活粒度论文搜索）

[02:13] 🚀 XQuant: Breaking the Memory Wall for LLM Inference with KV Cache Rematerialization（XQuant：通过KV缓存重物化突破LLM推理的内存瓶颈）

[02:40] 🚀 BeyondWeb: Lessons from Scaling Synthetic Data for Trillion-scale Pretraining（BeyondWeb：万亿规模预训练中合成数据扩展的经验教训）

[03:09] 🎨 StyleMM: Stylized 3D Morphable Face Model via Text-Driven Aligned Image Translation（StyleMM：通过文本驱动的对齐图像翻译实现风格化3D可变形人脸模型）

[03:35] 🌌 TexVerse: A Universe of 3D Objects with High-Resolution Textures（TexVerse：高分辨率纹理3D对象宇宙）

[03:59] 🗣 FantasyTalking2: Timestep-Layer Adaptive Preference Optimization for Audio-Driven Portrait Animation（FantasyTalking2：面向音频驱动人像动画的时间步-层级自适应偏好优化）

[04:32] 💡 X-Node: Self-Explanation is All We Need（X-Node：自解释即是我们所需的一切）

[04:57] ⚙ Controlling Multimodal LLMs via Reward-guided Decoding（通过奖励引导解码控制多模态大语言模型）

[05:21] ✨ SPARSE Data, Rich Results: Few-Shot Semi-Supervised Learning via Class-Conditioned Image Translation（稀疏数据，丰硕成果：通过类别条件图像转换实现小样本半监督学习）

[05:52] 🌍 MAESTRO: Masked AutoEncoders for Multimodal, Multitemporal, and Multispectral Earth Observation Data（MAESTRO：用于多模态、多时相、多光谱地球观测数据的掩码自编码器）

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

...more

View all episodes

By duan

22 ratings

August 18, 2025

2025.08.18 | 超越图像思考；自搜索强化

6 minutes

本期的 13 篇论文如下：

[00:19] 💡 Thyme: Think Beyond Images（Thyme：超越图像的思考）

[00:48] 🧠 SSRL: Self-Search Reinforcement Learning（SSRL：自搜索强化学习）

[01:16] 🚀 DINOv3（DINOv3：视觉基础模型新里程碑）

[01:42] 🔍 PaperRegister: Boosting Flexible-grained Paper Search via Hierarchical Register Indexing（PaperRegister：通过分层寄存器索引提升灵活粒度论文搜索）

[02:13] 🚀 XQuant: Breaking the Memory Wall for LLM Inference with KV Cache Rematerialization（XQuant：通过KV缓存重物化突破LLM推理的内存瓶颈）

[02:40] 🚀 BeyondWeb: Lessons from Scaling Synthetic Data for Trillion-scale Pretraining（BeyondWeb：万亿规模预训练中合成数据扩展的经验教训）

[03:09] 🎨 StyleMM: Stylized 3D Morphable Face Model via Text-Driven Aligned Image Translation（StyleMM：通过文本驱动的对齐图像翻译实现风格化3D可变形人脸模型）

[03:35] 🌌 TexVerse: A Universe of 3D Objects with High-Resolution Textures（TexVerse：高分辨率纹理3D对象宇宙）

[04:32] 💡 X-Node: Self-Explanation is All We Need（X-Node：自解释即是我们所需的一切）

[04:57] ⚙ Controlling Multimodal LLMs via Reward-guided Decoding（通过奖励引导解码控制多模态大语言模型）

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

...more

More shows like HuggingFace 每日AI论文速递

View all

硅谷101|中国版

56 Listeners

商业就是这样

291 Listeners

声动早咖啡

294 Listeners

思文，败类

156 Listeners

不开玩笑 Jokes Aside

135 Listeners

人民公园说AI

7 Listeners

數創實驗室 - AI時代的學習指南

1 Listeners

AI可可AI生活

0 Listeners

Share 2025.08.18 | 超越图像思考；自搜索强化

Sign up to save your podcasts

2025.08.18 | 超越图像思考；自搜索强化

2025.08.18 | 超越图像思考；自搜索强化

More shows like HuggingFace 每日AI论文速递

硅谷101|中国版

商业就是这样

声动早咖啡

思文，败类

不开玩笑 Jokes Aside

人民公园说AI

數創實驗室 - AI時代的學習指南

AI可可AI生活