智涌多模

[Google]AudioLM: 一种用于音频生成的语言建模方法


Listen Later

一、概述

AudioLM 是 Google Research 提出的一种新型音频生成框架,旨在生成具有长期一致性和高质量的音频。其核心思想是将音频映射到离散的 token 序列,并将音频生成转换为该表征空间中的语言建模任务。

二、主要思路

AudioLM 利用现有的音频 tokenizer 来平衡重建质量和长期结构之间的权衡,并提出了一种混合的 tokenization 方案,以实现这两个目标。

  • 语义 token: AudioLM 利用在音频上预训练的掩码语言模型的离散化激活来捕获长期结构,例如语音的语法和语义内容,以及钢琴音乐的和声和节奏。
  • 声学 token: AudioLM 使用 SoundStream 神经音频编解码器生成的离散码来实现高质量合成,捕获音频波形的细节。

AudioLM 通过在大型原始音频波形语料库上进行训练,学会在给定简短提示的情况下生成自然且连贯的延续。当在语音上进行训练时,即使没有任何文本或注释,AudioLM 也能生成语法和语义上合理的语音延续,同时还能保持未知说话人的身份和韵律。此外,该方法还扩展到语音之外,能够生成连贯的钢琴音乐延续,尽管训练时没有任何音乐的符号表示。

三、关键技术

  • 混合 tokenization 方案: 结合语义和声学 token,分别捕获音频的长期结构和细节信息。
  • "在该 tokenization 方案中,语义 token 启用长期结构一致性,而以语义 token 为条件对声学 token 进行建模则支持高质量音频合成。"
  • 分层建模: 首先对整个序列的语义 token 进行建模,然后将其作为条件来预测声学 token。
  • "具体来说,我们采用了一种分层方法,首先对整个序列的语义 token 进行建模,然后将其用作条件来预测声学 token。"
  • 多阶段 Transformer 语言模型: 在提出的 token 上运行,分别进行语义建模、粗声学建模和精细声学建模。

四、实验结果

  • 语音延续: 在仅提供 3 秒未知说话人语音的提示下,AudioLM 生成的延续几乎无法与原始语音区分开来,同时保持了说话人的身份、韵律和录音条件。
  • 钢琴延续: 在钢琴录音上进行训练时,AudioLM 生成了令人信服的延续,在旋律、和声、音调和节奏方面与提示一致。
  • 语义理解: AudioLM 在 sWUGGY 和 sBLIMP 零样本指标上取得了最佳成绩,证明了其在没有任何文本监督的情况下建模语言内容的能力。
  • 语音合成检测: 为了减轻潜在的滥用风险,AudioLM 框架还包含一个能够以非常高的准确率检测 AudioLM 生成的语音的分类器。

五、主要贡献

  • 提出了一种新的音频生成框架 AudioLM,该框架结合了语义和声学 token,以实现长期一致性和高质量。
  • 比较了从预训练的 w2v-BERT 中提取的语义 token 和 SoundStream 中的声学 token 在语音数据集上的表现,结果表明它们在语音可辨别性和重建质量方面互补。
  • 展示了 AudioLM 在不依赖文本注释的情况下生成语音、语法和语义连贯的语音的能力,并能保持未知说话人的声音、韵律和录音条件。
  • 展示了 AudioLM 也适用于音乐生成,能够生成与提示一致的钢琴序列。
  • 提出了一种有效的分类器,可以高精度检测 AudioLM 生成的语音,以减轻潜在风险。

六、潜在应用

  • 帮助有语言障碍的人士进行语音表达。
  • 辅助音乐创作。
  • 生成各种音频内容,如多语言语音、复调音乐和音频事件。

七、潜在风险及应对

  • AudioLM 继承了所有基于文本的语言模型的风险,例如反映基础数据中的社会偏见。
  • 生成逼真的语音延续可能会被恶意利用,例如欺骗生物识别或模仿特定说话人。

为了应对这些风险,研究人员提供了一个可以高精度检测 AudioLM 生成的音频的分类器,并强调负责任的 AI 实践的重要性,以防止滥用 AudioLM。

八、结论

AudioLM 是一种极具潜力的音频生成框架,能够生成高质量且具有长期一致性的音频。其混合 tokenization 方案、分层建模和多阶段 Transformer 语言模型的设计为音频生成领域带来了新的突破。同时,研究人员也关注到 AudioLM 潜在的风险,并提供相应的应对措施,以确保该技术的负责任使用。

九、未来方向

  • 扩展到其他类型的音频,如多语言语音、复调音乐和音频事件。
  • 将 AudioLM 集成到编码器-解码器框架中,用于文本到语音或语音到语音翻译等条件任务。
...more
View all episodesView all episodes
Download on the App Store

智涌多模By DjvuLee