Sign up to save your podcastsEmail addressPasswordRegisterOrContinue with GoogleAlready have an account? Log in here.
FAQs about AI Podcast:How many episodes does AI Podcast have?The podcast currently has 413 episodes available.
July 08, 2025深入剖析GLM-4.1V-Thinking:迈向通用多模态推理的新篇章在本期节目中,我们将深入探讨一款名为GLM-4.1V-Thinking的全新视觉语言模型。我们将详细解析其独特的以推理为核心的训练框架,包括大规模预训练、监督微调,以及创新的“带课程采样的强化学习”(RLCS)技术。我们将讨论该模型如何以90亿的参数规模,在多项基准测试中挑战甚至超越体量远超于它的模型(如72B模型和GPT-4o),并探讨其在跨领域泛化方面的惊人表现、面临的挑战与未来的发展方向。...more9minPlay
July 07, 2025IndexTTS2:革新语音合成的情感与时长控制深入探讨开创性的文本转语音模型IndexTTS2。我们讨论了它在自回归系统中精确控制语音时长的独特能力、其将声音与情感分离的先进情感控制功能,以及它如何为语音质量和表现力设定新标准。...more9minPlay
July 06, 2025Kwai Keye-VL: 赋能短视频时代的80亿参数多模态大模型深入探讨 Kwai Keye-VL 技术报告。我们将探讨其创新的架构、独特的四阶段预训练和两阶段后训练方法,以及其最先进的性能,尤其是在理解动态短视频方面。我们还将讨论其定制的基准测试 KC-MMBench 以及未来的挑战。...more6minPlay
July 04, 2025WavReward:教会AI“察言观色”的秘密武器本期播客深入探讨了WavReward,一个专为评估端到端语音对话模型而设计的创新奖励模型。我们讨论了当前评估方法的局限性,并详细介绍了WavReward如何通过强化学习、思维链推理和非线性奖励机制,准确评估模型的“智商”和“情商”。同时,我们还介绍了为其量身定制的ChatReward-30K数据集,它如何通过丰富的声学维度和隐式对话场景,推动语音AI向更自然、更人性化的方向发展。...more8minPlay
July 02, 2025MirrorMe: 实时高保真音频驱动的半身数字人动画本期节目深入探讨了MirrorMe框架,一个旨在解决实时、高保真、可控的音频驱动数字人动画挑战的先进技术。我们将讨论其基于LTX视频模型的创新架构,包括身份保留、音频融合和渐进式训练策略,以及它如何实现业界领先的性能和效率。...more10minPlay
July 01, 2025深入解读文心大模型4.5技术报告在本期节目中,我们将深入探讨百度最新发布的ERNIE 4.5技术报告。我们将解析其创新的多模态异构混合专家(MoE)架构、高效的训练与推理框架,以及在各大基准测试中取得的卓越性能,全面了解这款前沿大模型的背后技术。...more9minPlay
July 01, 2025GUIRoboTron-Speech:用声音操控万物,AI交互新革命在本期节目中,我们将深入探讨 GUIRoboTron-Speech,这是首个能够直接通过语音指令和屏幕截图来操作手机和电脑的端到端自主GUI代理。我们讨论了它如何解决现有基于文本的AI代理的局限性,特别是在需要解放双手的场景中。我们还将揭示其创新的数据收集方法,即利用随机音色的文本转语音技术(TTS)来创建训练数据,以及其独特的“混合指令训练策略”如何克服了预训练模型中的“模态不平衡”问题。最后,我们将分析其实验结果,证明语音作为一种指令模态在驱动GUI代理方面的巨大潜力和广泛适用性。...more9minPlay
June 29, 2025Stream-Omni: 高效灵活的多模态交互新范式深入探讨Stream-Omni模型,解析其如何创新性地对齐文本、视觉和语音。我们将讨论其独特的架构、高效的训练过程,以及在创建无缝、实时多模态体验方面的卓越表现。...more9minPlay
June 28, 2025让他们开口:音频驱动的多人对话视频生成本期节目深入探讨了名为MultiTalk的创新框架,该框架专注于一项全新任务:音频驱动的多人对话视频生成。我们讨论了该技术如何解决多路音频与视频中人物的精确绑定问题,特别是通过一种名为L-RoPE(标签旋转位置嵌入)的新方法。此外,我们还将揭示其独特的训练策略,例如部分参数训练和多任务训练,是如何在保留模型指令遵循能力方面发挥关键作用的。...more8minPlay
June 26, 2025深入探讨OmniGen2:迈向高级多模态生成本期节目,我们深入探讨了OmniGen2这一先进的开源多模态生成模型,涵盖其创新的模型架构、独特的数据集构建策略、全新的OmniContext评测基准,以及在各项生成任务上的实验表现和未来展望。...more11minPlay
FAQs about AI Podcast:How many episodes does AI Podcast have?The podcast currently has 413 episodes available.