Sign up to save your podcastsEmail addressPasswordRegisterOrContinue with GoogleAlready have an account? Log in here.
FAQs about AI Podcast:How many episodes does AI Podcast have?The podcast currently has 399 episodes available.
February 09, 2025Reinforcement Learning: An Engaging Podcast DiscussionA fast-paced and enthusiastic podcast conversation covering key concepts from the book "Reinforcement Learning: An Introduction," tailored for audio consumption and enhanced understanding....more5minPlay
February 09, 2025LLaVA-OneVision: 易于实现的视觉任务迁移探讨 LLaVA-OneVision,一个开源的大型多模态模型家族,通过整合 LLaVA-NeXT 博客系列中的数据、模型和视觉表示方面的见解而开发。实验结果表明,LLaVA-OneVision 是首个能够同时推动开放 LMM 在单图像、多图像和视频场景中性能边界的单一模型。该设计允许跨不同模态/场景进行强大的迁移学习,从而产生新的新兴能力。...more6minPlay
February 09, 2025VITA-1.5:迈向GPT-4o水平的实时视觉和语音交互本期播客深入探讨VITA-1.5,一个旨在实现实时视觉和语音交互的多模态大型语言模型。我们将讨论其架构、训练策略以及在图像、视频和语音任务上的评估结果。...more8minPlay
February 08, 2025Hibiki: 高保真同步语音到语音翻译本播客深入探讨了 Hibiki,一种用于同步语音翻译的创新解码器模型。我们将讨论其架构、训练方法以及在法语-英语翻译任务中的卓越性能。此外,我们还将探讨其在设备上的实时部署潜力。...more6minPlay
February 08, 2025Kimi k1.5: 基于强化学习的大语言模型扩展本播客深入探讨了 Kimi 团队如何利用强化学习 (RL) 训练其最新的多模态大语言模型 Kimi k1.5。内容涵盖 RL 训练技术、多模态数据配方以及基础设施优化,重点关注长文本扩展和策略优化,以实现卓越的推理性能。...more10minPlay
February 07, 2025Omni-Emotion:通过详细的面部和音频建模扩展视频 MLLM 以进行多模态情感分析本播客讨论了Omni-Emotion模型,该模型通过集成音频和细粒度面部信息来增强视频多模态大型语言模型(MLLM),从而在情感识别和推理任务中实现了最先进的性能。此外,本播客还讨论了用于训练Omni-Emotion模型的高质量自审阅和人工审阅情感数据集。...more6minPlay
February 07, 2025HumanOmni:以人为中心的视频理解大型视觉语音语言模型深入探讨HumanOmni,一个为理解以人为中心的场景而设计的多模态大型语言模型。我们讨论了其数据集构建、模型架构以及在情感识别、面部表情理解和动作理解等任务上的表现。...more9minPlay
February 06, 2025Align-Anything: 多模态模型训练与语言反馈本播客讨论了一种名为 Align-Anything 的新框架,该框架旨在通过利用人类反馈,尤其是语言反馈,来提升多模态模型的性能。该框架包括一个大规模的多模态数据集、一种新颖的对齐算法以及一个全面的评估工具。...more8minPlay
February 06, 2025OmniHuman: 混合条件的人体动画模型探讨OmniHuman,一种基于Diffusion Transformer的框架,通过混合运动相关条件来扩展数据,实现高度逼真的人体视频生成。...more7minPlay
FAQs about AI Podcast:How many episodes does AI Podcast have?The podcast currently has 399 episodes available.