
Sign up to save your podcasts
Or


LLaDA2.0-Uni 是由 Inclusion AI 研发中心推出的一种新型统一多模态基础模型,旨在无缝整合视觉理解与图像生成任务。该模型采用了创新的 SigLIP-VQ 标记器,将视觉信息转化为离散的语义标记,从而实现了文本与图像在统一框架下的深度融合。其核心架构基于 16B 参数的混合专家(MoE)离散扩散语言模型,通过共享的掩码预测目标进行高效训练。为了兼顾生成质量与推理速度,模型还配备了一个经过蒸馏优化的扩散解码器。实验数据表明,LLaDA2.0-Uni 在文档推理、视觉问答及高保真图像编辑等多个基准测试中均展现出顶尖性能。这种架构设计不仅支持交替进行的生成与推理,也为通往**通用人工智能(AGI)**提供了极具潜力的技术路径。
By 每日新闻LLaDA2.0-Uni 是由 Inclusion AI 研发中心推出的一种新型统一多模态基础模型,旨在无缝整合视觉理解与图像生成任务。该模型采用了创新的 SigLIP-VQ 标记器,将视觉信息转化为离散的语义标记,从而实现了文本与图像在统一框架下的深度融合。其核心架构基于 16B 参数的混合专家(MoE)离散扩散语言模型,通过共享的掩码预测目标进行高效训练。为了兼顾生成质量与推理速度,模型还配备了一个经过蒸馏优化的扩散解码器。实验数据表明,LLaDA2.0-Uni 在文档推理、视觉问答及高保真图像编辑等多个基准测试中均展现出顶尖性能。这种架构设计不仅支持交替进行的生成与推理,也为通往**通用人工智能(AGI)**提供了极具潜力的技术路径。