本文介绍了 Janus,一个统一的多模态理解和生成模型,其核心在于解耦视觉编码,以分别满足理解和生成任务的不同需求。
重要观点和事实:
- **多模态模型的趋势:**近年来,多模态大模型在理解和生成领域都取得了显著进展。研究人员致力于构建更强大、更通用的多模态模型,将理解和生成任务结合起来。
- 现有统一模型的局限性: 传统的统一模型通常使用单一的视觉编码器来处理理解和生成任务,但这会导致两种任务之间产生冲突和权衡,尤其是在多模态理解方面表现不佳。
- **Janus 的解决方案:**Janus 提出了解耦视觉编码的方案,为理解和生成任务分别引入两个独立的视觉编码路径,并通过相同的 Transformer 架构进行统一处理。
Janus 的优势:
- 缓解冲突: 解耦视觉编码缓解了理解和生成任务对视觉编码器粒度需求不同的冲突,消除了在选择视觉编码器时需要在两种任务之间进行权衡的问题。
- 灵活性和可扩展性: 解耦后,理解和生成任务都可以独立采用各自领域最先进的编码技术。此外,Janus 未来还可以容纳其他类型的输入,例如点云、脑电信号或音频数据。
Janus 的架构:
- 独立的编码方法: 针对纯文本理解、多模态理解和视觉生成任务,Janus 分别采用独立的编码方法将原始输入转换为特征,然后由一个统一的自回归 Transformer 进行处理。
- 统一的 Transformer 架构: 所有特征序列被连接起来形成一个多模态特征序列,随后被输入到 LLM 中进行处理。LLM 的内置预测头用于纯文本理解和多模态理解任务中的文本预测,而随机初始化的预测头用于视觉生成任务中的图像预测。
训练过程:
Janus 的训练分为三个阶段:
- 训练适配器和图像头: 主要目标是在嵌入空间内创建视觉和语言元素之间的概念连接,使 LLM 能够理解图像中显示的实体,并具备初步的视觉生成能力。
- 统一预训练: 使 Janus 学习多模态理解和生成能力。使用纯文本数据、多模态理解数据和视觉生成数据进行训练。
- 监督微调: 使用指令微调数据增强模型的指令跟随和对话能力。
实验结果:
- 多模态理解: 在 MMBench、SEED-Bench 和 POPE 等基准测试中,Janus 超过了具有类似参数大小的现有统一模型,甚至超过了一些参数规模更大的特定任务模型。
- 视觉生成: 在 MSCOCO-30K 和 GenEval 基准测试中,Janus 的性能超过了统一模型 Show-o 和一些流行的仅生成方法,例如 SDXL 和 DALL-E 2。
消融研究:
- 解耦视觉编码的重要性: 消融研究验证了解耦视觉编码对提升多模态理解能力的重要性,并证明了使用单一视觉编码器会导致理解和生成能力之间的权衡。
- 统一训练的有效性: 与仅进行理解或仅进行生成的训练相比,统一训练的性能相当,表明 Janus 能够在最小程度影响多模态理解性能的情况下,融入强大的生成能力。
结论:
Janus 作为一个简单、统一和可扩展的多模态理解和生成模型,其解耦视觉编码的设计理念有效地解决了传统统一模型的局限性,并在实验中取得了领先的性能。Janus 的灵活性和可扩展性使其在未来具有巨大的发展潜力,有望成为下一代多模态通用模型的灵感来源。