智涌多模

[Baichuan]BAICHUAN-OMNI多模态模型技术报告


Listen Later

介绍了百川智能开发的首个开源 7B 多模态大语言模型 (MLLM) Baichuan-Omni。该模型能够同时处理和分析图像、视频、音频和文本等多种模态信息,提供先进的多模态交互体验,并在多个基准测试中表现出强大的性能。

核心思想:

  1. 构建全面的多模态训练数据: Baichuan-Omni 的训练数据涵盖了图像、视频、音频和文本等多种模态,并融合了开源、合成和内部标注的数据集。
  • 图像数据: 包括图像描述、交错图文、OCR 数据和图表数据等,来源包括 PIN-14M、MINT-1T、LAION-5B、OBELIC 等开源数据集,以及 Cauldron、Monkey、ArxivQA、TGDoc、MM-Self-Instruct、MMTab 等用于第二、三阶段训练的数据集。
  • 视频数据: 来源包括 LLaVA-NExT 中的 NExTVideo、ActivityNet-QA、ShareGPT4Video 和 WebVid 等开源数据集,以及使用 GPT-4o 为 YouTube 视频生成的描述。
  • 音频数据: 包括不同录音环境、语言、口音和说话者的音频数据,并使用内部 ASR 系统和开源模型生成多版本文本,通过模型集成策略进行文本过滤和纠错。
  • 文本数据: 来自网页、书籍、学术论文、代码等多个领域,经过筛选以提高多样性和质量。
  • 跨模态交互数据: 包括图文音和视频音文数据集,例如将文本数据分割为 1:3 比例,将初始四分之一文本转换为音频描述,并通过任务提示引导模型预测剩余四分之三文本描述。
  1. 多模态对齐预训练: 该阶段的目标是在不同模态之间进行对齐。
  • 图像-语言分支: 使用大量图文对训练视觉-语言模型,并利用其视觉能力进一步训练视频投影器。
  • 视频-语言分支: 利用图像-语言分支的视觉能力,使用冻结的视觉编码器和 LLM 主干训练视频投影器。
  • 音频-语言分支: 在视觉和视频数据预训练的 LLM 基础上,引入 Whisper-large-v3 模型的音频编码器和新的音频投影器。
  1. 多任务微调: 该阶段使用多任务跨模态交互训练语料库,涵盖 200 多个不同任务,包括纯文本、音频、图文、视频文和图音频交互数据。
  • 纯文本数据: 涵盖知识问答、数学、逻辑推理、代码生成、文本创作、信息处理、基于角色的任务和安全相关数据。
  • 图像理解数据: 主要使用 vFLAN 数据集,并通过基于损失的过滤方法清理数据集。
  • 音频理解数据: 包括 ASR、情感识别和音频问答等任务数据,并使用内部 ASR 系统和开源模型生成多版本文本,通过模型集成策略进行文本过滤和纠错。

重要发现:

  • Baichuan-Omni 在多个多模态和单模态基准测试中表现出色,超越了现有的开源多模态模型,并与一些专有的多模态模型相媲美。
  • 研究探索了自然多模态人机交互的早期阶段。
  • 消融实验表明,增加视频帧数、提高视觉编码器分辨率以及在预训练阶段加入视频-文本数据都有助于提高模型的视频理解能力。

贡献:

  • 提出了一个开源、高性能的全模态基础模型 Baichuan-Omni,能够同时处理文本、图像、视频和音频输入,并提供多语言支持。
  • 探索了自然多模态人机交互的早期研究,例如使用流式输入处理音频和视频。
  • 开源了 Baichuan-Omni 模型、训练代码和评估脚本,以促进研究社区的进步。

未来方向:

  • 增强文本提取能力。
  • 支持更长的视频理解。
  • 开发与 LLM 集成的端到端 TTS 系统。
  • 提高对人类语音和自然环境声音的理解能力。
...more
View all episodesView all episodes
Download on the App Store

智涌多模By DjvuLee