Sign up to save your podcastsEmail addressPasswordRegisterOrContinue with GoogleAlready have an account? Log in here.
July 30, 2025ESPnet-SpeechLM:解密开源语音语言模型工具包8 minutesPlay本期播客深入探讨了ESPnet-SpeechLM,这是一个旨在简化和普及语音语言模型(SpeechLMs)开发的开源工具包。我们讨论了它如何将自动语音识别(ASR)、文本到语音转换(TTS)等多种语音任务统一为通用的序列建模问题,并详细介绍了其从数据预处理到模型训练、推理和评估的完整工作流程。通过具体的用例,我们展示了该工具包构建高性能、多任务语音大模型的强大能力,包括一个在多项基准测试中表现出色的17亿参数模型。...moreShareView all episodesBy weedgeJuly 30, 2025ESPnet-SpeechLM:解密开源语音语言模型工具包8 minutesPlay本期播客深入探讨了ESPnet-SpeechLM,这是一个旨在简化和普及语音语言模型(SpeechLMs)开发的开源工具包。我们讨论了它如何将自动语音识别(ASR)、文本到语音转换(TTS)等多种语音任务统一为通用的序列建模问题,并详细介绍了其从数据预处理到模型训练、推理和评估的完整工作流程。通过具体的用例,我们展示了该工具包构建高性能、多任务语音大模型的强大能力,包括一个在多项基准测试中表现出色的17亿参数模型。...more
本期播客深入探讨了ESPnet-SpeechLM,这是一个旨在简化和普及语音语言模型(SpeechLMs)开发的开源工具包。我们讨论了它如何将自动语音识别(ASR)、文本到语音转换(TTS)等多种语音任务统一为通用的序列建模问题,并详细介绍了其从数据预处理到模型训练、推理和评估的完整工作流程。通过具体的用例,我们展示了该工具包构建高性能、多任务语音大模型的强大能力,包括一个在多项基准测试中表现出色的17亿参数模型。
July 30, 2025ESPnet-SpeechLM:解密开源语音语言模型工具包8 minutesPlay本期播客深入探讨了ESPnet-SpeechLM,这是一个旨在简化和普及语音语言模型(SpeechLMs)开发的开源工具包。我们讨论了它如何将自动语音识别(ASR)、文本到语音转换(TTS)等多种语音任务统一为通用的序列建模问题,并详细介绍了其从数据预处理到模型训练、推理和评估的完整工作流程。通过具体的用例,我们展示了该工具包构建高性能、多任务语音大模型的强大能力,包括一个在多项基准测试中表现出色的17亿参数模型。...more
本期播客深入探讨了ESPnet-SpeechLM,这是一个旨在简化和普及语音语言模型(SpeechLMs)开发的开源工具包。我们讨论了它如何将自动语音识别(ASR)、文本到语音转换(TTS)等多种语音任务统一为通用的序列建模问题,并详细介绍了其从数据预处理到模型训练、推理和评估的完整工作流程。通过具体的用例,我们展示了该工具包构建高性能、多任务语音大模型的强大能力,包括一个在多项基准测试中表现出色的17亿参数模型。