June 28, 2025

让他们开口：音频驱动的多人对话视频生成

8 minutes

本期节目深入探讨了名为MultiTalk的创新框架，该框架专注于一项全新任务：音频驱动的多人对话视频生成。我们讨论了该技术如何解决多路音频与视频中人物的精确绑定问题，特别是通过一种名为L-RoPE（标签旋转位置嵌入）的新方法。此外，我们还将揭示其独特的训练策略，例如部分参数训练和多任务训练，是如何在保留模型指令遵循能力方面发挥关键作用的。

...more

View all episodes

By weedge

June 28, 2025

让他们开口：音频驱动的多人对话视频生成

8 minutes

...more

Share 让他们开口：音频驱动的多人对话视频生成

Sign up to save your podcasts

让他们开口：音频驱动的多人对话视频生成

让他们开口：音频驱动的多人对话视频生成