Sign up to save your podcastsEmail addressPasswordRegisterOrContinue with GoogleAlready have an account? Log in here.
FAQs about AI Podcast:How many episodes does AI Podcast have?The podcast currently has 413 episodes available.
August 21, 2025AI电台FM:技术频道 - 实时全频带语音增强的混合DSP与深度学习方法本期节目深入探讨了实时全频带语音增强的突破性进展,特别是Mozilla公司Jean-Marc Valin提出的混合DSP与深度学习方法。我们将揭示这种创新方法如何通过结合传统信号处理与现代神经网络的优势,在保持低复杂度的同时,显著提升语音去噪的质量,并讨论其在实时应用中的巨大潜力,例如视频会议系统。...more12minPlay
August 20, 2025深度强化学习概览:从基础到前沿本期节目深入探讨了强化学习的各个方面,从核心概念、经典算法到前沿技术,旨在为听众提供一份全面且引人入胜的强化学习概览。我们将详细讨论价值学习、策略优化、基于模型的强化学习,以及处理稀疏奖励、部分可观测性等挑战的最新方法。此外,我们还将触及强化学习与大语言模型等新兴领域的交叉应用,并展望通用人工智能的未来。...more14minPlay
August 19, 2025AI前沿:ZipVoice - 极速高质零样本文本到语音的奥秘深入探讨ZipVoice,一个革命性的文本到语音模型!它如何通过紧凑的设计和创新的流匹配蒸馏技术,实现比现有技术快30倍的推理速度,同时保持卓越的语音质量。了解Zipformer骨干网络、平均上采样策略和流蒸馏如何共同打造下一代零样本TTS体验。...more11minPlay
August 18, 2025智绘乾坤:揭秘通义Qwen-Image的视觉生成突破本期AI电台FM科技频道,我们将深入探讨阿里通义团队推出的Qwen-Image模型。从其在复杂文本渲染和精准图像编辑上的重大突破,到其创新的数据管道和训练策略,以及在各项基准测试中展现出的卓越性能,我们将全面解析Qwen-Image如何重新定义生成式AI的边界,并展望其在未来视觉-语言交互领域的深远影响。...more16minPlay
August 18, 2025AI电台FM:露西:边缘运行智能体与动态思维向量的秘密本期节目深入探讨了Menlo Research的突破性项目“露西”,一个仅1.7亿参数的小型语言模型,如何通过创新的动态任务向量机制和两阶段强化学习框架,在移动和边缘设备上实现与大型模型相媲美的智能体式网页搜索能力。我们将揭示其如何通过优化思维过程而非增加模型规模来打破传统瓶颈,并探讨思维标签在任务向量中的关键作用以及其带来的出乎意料的自适应行为。...more11minPlay
August 14, 2025VeOmni:多模态大模型训练的革新者本期节目,我们将深入探讨字节跳动最新推出的VeOmni框架,它如何以模型为中心的分布式训练配方,高效扩展任意模态模型训练,突破多模态大模型开发瓶颈。从架构解耦到N维并行策略,再到实战表现,我们将为您揭示VeOmni的强大之处!...more11minPlay
August 14, 2025OpenCUA:开启通用计算机代理的新篇章本期播客深入探讨了OpenCUA框架,一个旨在为计算机使用代理(CUA)研究建立开放基础的创新项目。我们将详细解读其数据收集、处理、模型训练的独特方法,以及OpenCUA-32B如何在OSWorld-Verified基准测试中超越GPT-4o,成为开源模型的里程碑。...more27minPlay
August 13, 2025SecoustiCodec:下一代流媒体语音编解码技术深入探讨开创性的语音编解码器SecoustiCodec,它通过解耦语义和副语言信息,实现了高保真、低比特率和实时流媒体传输。我们将剖析其VAE+FSQ量化、跨模态对比学习等创新方法,并解读其令人瞩目的SOTA性能。...more9minPlay
August 13, 2025Sortformer: AI革命性的语音识别新篇章在本期节目中,我们深入探讨了英伟达(NVIDIA)的创新模型Sortformer。我们将揭示它如何通过一种名为“排序损失”(Sort Loss)的新颖方法,巧妙地解决了语音分离(说话人日志)中的“排列问题”,从而彻底改变了多说话人自动语音识别(ASR)技术。我们将讨论Sortformer如何与ASR系统无缝集成,通过创新的“说话人核函数”和“排序序列化转录”技术,实现端到端的联合优化。准备好了解这项让机器更懂对话的突破性技术吧!...more9minPlay
August 13, 2025流式 Sortformer:实时语音日记的新突破深入探讨 NVIDIA 的最新研究“流式 Sortformer”,这是一种基于说话人缓存的在线说话人日志框架。我们将解析其核心创新“按到达顺序排列的说话人缓存”(AOSC)如何解决实时多说话人追踪的难题,并讨论其在实时字幕、虚拟会议等领域的应用前景。...more7minPlay
FAQs about AI Podcast:How many episodes does AI Podcast have?The podcast currently has 413 episodes available.