November 28, 2025

2025.11.28 | 潜在奖励模型提速降显存；画布多模态生成碾压SOTA

Listen Later

4 minutes

本期的 6 篇论文如下：

[00:19] 🎬 Video Generation Models Are Good Latent Reward Models（视频生成模型是优秀的潜在奖励模型）

[01:07] 🎨 Canvas-to-Image: Compositional Image Generation with Multimodal Controls（画布到图像：基于多模态控制的组合式图像生成）

[01:49] 🎨 MIRA: Multimodal Iterative Reasoning Agent for Image Editing（MIRA：多模态迭代推理代理用于图像编辑）

[02:30] 📊 Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following（多准则：多模态评估器在多元化标准遵循上的基准测试）

[03:12] 🧠 What does it mean to understand language?（理解语言意味着什么？）

[03:47] 🧠 Agentic Learner with Grow-and-Refine Multimodal Semantic Memory（具有生长与精炼多模态语义记忆的自主学习者）

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

...more

View all episodes

View all episodes

Download on the App Store

Download on the App Store

Get it on Google Play

HuggingFace 每日AI论文速递

By duan

5

22 ratings

November 28, 2025

2025.11.28 | 潜在奖励模型提速降显存；画布多模态生成碾压SOTA

Listen Later

4 minutes

本期的 6 篇论文如下：

[00:19] 🎬 Video Generation Models Are Good Latent Reward Models（视频生成模型是优秀的潜在奖励模型）

[01:07] 🎨 Canvas-to-Image: Compositional Image Generation with Multimodal Controls（画布到图像：基于多模态控制的组合式图像生成）

[01:49] 🎨 MIRA: Multimodal Iterative Reasoning Agent for Image Editing（MIRA：多模态迭代推理代理用于图像编辑）

[02:30] 📊 Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following（多准则：多模态评估器在多元化标准遵循上的基准测试）

[03:12] 🧠 What does it mean to understand language?（理解语言意味着什么？）

[03:47] 🧠 Agentic Learner with Grow-and-Refine Multimodal Semantic Memory（具有生长与精炼多模态语义记忆的自主学习者）

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

...more

More shows like HuggingFace 每日AI论文速递

硅谷101|中国版 by 泓君Jane

硅谷101|中国版

56 Listeners

商业就是这样 by 商业就是这样

商业就是这样

292 Listeners

声动早咖啡 by 声动活泼

声动早咖啡

293 Listeners

思文，败类 by 思文败类

思文，败类

157 Listeners

不开玩笑 Jokes Aside by 不开玩笑JokesAside

不开玩笑 Jokes Aside

136 Listeners

人民公园说AI by JustSayAI

人民公园说AI

7 Listeners

數創實驗室 - AI時代的學習指南 by Vincent在數創

數創實驗室 - AI時代的學習指南

1 Listeners

AI可可AI生活 by fly51fly

AI可可AI生活

0 Listeners