Sign up to save your podcastsEmail addressPasswordRegisterOrContinue with GoogleAlready have an account? Log in here.
FAQs about AI Podcast:How many episodes does AI Podcast have?The podcast currently has 413 episodes available.
August 13, 2025Llasa+: 加速和流式语音合成的免费午餐本期节目,我们将深入探讨 Llasa+,这是一种基于 Llasa 模型构建的加速和流式文本到语音(TTS)模型。我们将讨论其核心技术,包括多令牌预测(MTP)和创新的验证算法,如何实现显著的速度提升而又不牺牲语音质量。同时,我们还将介绍其流式声码器 XCodec2-S 的实现。...more10minPlay
August 12, 2025FP4一路狂飙:全量化训练大型语言模型的新纪元本期播客深入探讨了一项开创性的研究,该研究首次实现了使用4比特浮点数(FP4)对大型语言模型进行全面的量化训练。我们邀请了技术专家Weedge,共同讨论了这项技术如何通过优化FP4格式(如NVFP4)、创新的分裂式舍入策略以及一个关键的理论阈值,成功地在保持与BF16基线相当性能的同时,极大地提升了训练效率。我们将揭示FP4训练从理论到大规模实践的全过程,包括它如何巧妙地利用量化感知微调(QAF)来弥补最后的性能差距,预示着AI训练硬件和算法的下一个革命。...more11minPlay
August 12, 2025GLM-V:用强化学习打造通用多模态推理新标杆深入解读GLM-4.1V-Thinking和GLM-4.5V的技术报告。我们将探讨其创新的以推理为中心的训练框架,大规模强化学习中的挑战与突破,以及这些模型如何推动多模态人工智能的边界。...more8minPlay
August 12, 2025GLM-4.5深度解析:智能体、推理与编码三位一体的AI新王者本期节目,我们深入探讨智谱AI和清华大学联合发布的GLM-4.5模型。这款拥有3550亿参数的开源巨兽,如何在智能体(Agentic)、推理(Reasoning)和编码(Coding)三大核心能力上实现顶级性能?从独特的训练方法到惊艳的评测结果,我们为您全方位解读GLM-4.5的强大之处。...more7minPlay
August 06, 2025'高效流式语言模型与注意力汇聚点'(Efficient Streaming Language Models with Attention Sinks)深入探讨的是一篇关于'高效流式语言模型与注意力汇聚点'(Efficient Streaming Language Models with Attention Sinks)的论文。...more9minPlay
August 06, 2025深入探讨OpenAI的开源新贵:gpt-oss-120b与20b模型本期节目,我们将深入探讨OpenAI最新发布的两个开源权重模型,gpt-oss-120b和gpt-oss-20b。我们将讨论它们的模型架构、核心功能、性能评估,以及大家最关心的安全问题,包括OpenAI是如何进行对抗性测试来评估潜在风险的。...more8minPlay
August 05, 2025MiDashengLM:用通用音频字幕重新定义音频AI深入探讨小米公司推出的开源音频语言模型MiDashengLM。我们探索其创新的“通用音频字幕”方法,该方法将语音、声音和音乐融合成一个丰富的描述。我们将讨论这种方法如何挑战传统的基于ASR的模型,从而在音频理解方面取得卓越性能和令人难以置信的效率提升。我们还将解析驱动该模型的新型ACAVCaps和MECAT数据集。...more10minPlay
August 03, 2025深入解析CIF模型:语音识别领域的革命性突破在本期节目中,我们深入探讨了用于端到端语音识别的连续整合触发(CIF)模型。我们讨论了它如何解决传统注意力机制的局限性,其灵感来源、核心算法,以及一系列创新的支持策略,并分析了它在多个标准测试集上取得的卓越性能。...more11minPlay
August 03, 2025IWSLT 2025 CUNI系统:Whisper与EuroLLM联手打造实时同声传译新高度本期播客深入探讨了查尔斯大学(CUNI)在IWSLT 2025同声传译任务中提交的创新系统。我们详细解读了他们如何将离线的Whisper语音模型和大型语言模型EuroLLM应用于实时同声传译,并取得了超越基线2至22个BLEU点的惊人成果。内容涵盖捷克语到英语的直接翻译,以及英语到德语、中文、日语的级联翻译方法,同时还介绍了一种新颖的ASR延迟评估方法。...more8minPlay
August 03, 2025Simul-Whisper:让Whisper模型实现实时语音识别本期节目,我们深入探讨Simul-Whisper,一种无需微调即可将强大的Whisper模型应用于流式语音识别场景的创新策略。我们将讨论其核心技术:注意力引导解码和截断词检测,并分析其相比传统方法的显著优势和性能表现。...more8minPlay
FAQs about AI Podcast:How many episodes does AI Podcast have?The podcast currently has 413 episodes available.