Sign up to save your podcastsEmail addressPasswordRegisterOrContinue with GoogleAlready have an account? Log in here.
FAQs about AI Podcast:How many episodes does AI Podcast have?The podcast currently has 397 episodes available.
July 30, 2025OWSM v4: 数据致胜,开源语音模型的飞跃本期播客深入探讨了最新的OWSM v4语音模型。我们讨论了该项目如何通过整合并深度清洗大规模网络爬取数据集YODAS,来解决开源模型数据不足的难题。我们详细解读了其创新的三步数据清洗流程,并分析了OWSM v4在多语言语音识别、语言识别和语音翻译等多个基准测试中取得的惊人成果,其表现甚至在某些场景下超越了像Whisper和MMS这样的行业顶尖模型。...more7minPlay
July 30, 2025ESPnet-SpeechLM:解密开源语音语言模型工具包本期播客深入探讨了ESPnet-SpeechLM,这是一个旨在简化和普及语音语言模型(SpeechLMs)开发的开源工具包。我们讨论了它如何将自动语音识别(ASR)、文本到语音转换(TTS)等多种语音任务统一为通用的序列建模问题,并详细介绍了其从数据预处理到模型训练、推理和评估的完整工作流程。通过具体的用例,我们展示了该工具包构建高性能、多任务语音大模型的强大能力,包括一个在多项基准测试中表现出色的17亿参数模型。...more9minPlay
July 30, 2025ESPnet:重塑语音识别的端到端革命本期播客深入探讨了开创性的开源工具包ESPnet。我们将讨论它如何通过其创新的混合CTC/Attention端到端架构,彻底简化了自动语音识别(ASR)的复杂流程。我们将揭示ESPnet与传统HMM/DNN系统的区别,其核心技术优势,以及它在不同语言(如英语、日语和普通话)上的惊人表现。加入我们,一起了解这个改变了语音处理领域的强大工具。...more12minPlay
July 30, 2025WeNet 2.0:深入解析生产级端到端语音识别工具本期播客深入探讨了WeNet 2.0,这是一个面向生产环境的端到端语音识别工具包。我们详细讨论了其四大核心更新:创新的U2++框架、实用的N-gram语言模型集成方案、强大的上下文偏置技术,以及高效的统一IO(UIO)系统。通过这些改进,WeNet 2.0在多种语音识别任务上实现了显著的性能提升,使其成为一个更高效、更强大的生产力工具。...more12minPlay
July 30, 2025WeNet: 统一流式与非流式语音识别的生产级解决方案本期播客深入探讨了名为WeNet的开源语音识别工具包。我们将详细解析其创新的U2架构如何巧妙地统一流式和非流式识别模式,有效解决了从学术研究到工业界生产部署之间的鸿沟。同时,我们还会分析其在不同平台上的性能基准测试,揭示其成为业界领先解决方案的奥秘。...more9minPlay
July 29, 2025DeSTA2.5-Audio:通过自生成对齐打造通用大型音频语言模型本期节目深入探讨了DeSTA2.5-Audio,这是一种创新的大型音频语言模型。我们讨论了它如何通过“自生成”策略解决灾难性遗忘问题,即让模型自己创建训练数据,从而在不损害其语言能力的情况下,高效地学习音频理解。我们还将分析其在多个基准测试中的卓越表现,以及数据构建在多模态人工智能发展中的核心作用。...more8minPlay
July 29, 2025AI广播电台FM - 科技频道:深入解析GLM-4.5 - 新一代统一大模型在本期节目中,我们将深入探讨智谱AI发布的最新旗舰模型:GLM-4.5和GLM-4.5-Air。我们将讨论它们如何致力于将推理、编码和智能体能力统一到单个模型中,以及它们在各项基准测试中的卓越表现、令人惊叹的实际应用演示和背后的尖端技术。从可玩的Flappy Bird游戏到全栈网站开发,再到创新的“slime”强化学习框架,让我们一同揭开GLM-4.5的神秘面纱。...more10minPlay
July 28, 2025VALL-E 2: 实现人类水平的零样本语音合成本期播客深入探讨了VALL-E 2,这是一种开创性的文本到语音(TTS)模型,首次实现了人类水平的零样本语音合成。我们讨论了其核心创新,如重复感知采样和分组编码建模,如何解决了其前身VALL-E的稳定性和效率问题。我们还将解读其在LibriSpeech和VCTK数据集上的惊人实验结果,并探讨这项强大技术带来的伦理考量和未来影响。...more9minPlay
July 26, 2025MusicGen:简单可控的音乐生成模型本期播客深入探讨了Meta AI的研究论文《MusicGen: Simple and Controllable Music Generation》。我们讨论了MusicGen如何通过单级语言模型和高效的标记交错模式,实现高质量的文本到音乐生成。我们还将探讨其独特的旋律条件控制功能、立体声生成能力,并将其与现有技术进行比较。...more7minPlay
July 25, 2025EmergentTTS-Eval: 彻底改变语音合成模型的评估方式深入探讨创新的 EmergentTTS-Eval 基准测试,它如何通过复杂的测试和AI裁判来评估最先进的文本转语音(TTS)模型,并揭示了开源与闭源系统之间的真实性能差距。...more8minPlay
FAQs about AI Podcast:How many episodes does AI Podcast have?The podcast currently has 397 episodes available.