Share 【第244期】TokenOCR：Token基本文本图像LLM

Copy link

June 01, 2025

【第244期】TokenOCR：Token基本文本图像LLM

19 minutes

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法方向，让大家跟着AI一起进步。

进群添加小助手微信：seventy3_podcast

备注：小宇宙

今天的主题是：A Token-level Text Image Foundation Model for Document Understanding

Summary

来源描述了一种新型文本图像基础模型，称为 TokenOCR，以及利用它构建的文档理解多模态大语言模型 TokenVL。研究人员通过创建一个大规模、细粒度的标记级图像文本数据集 TokenIT 来预训练 TokenOCR，该数据集包含 2000 万图像和 18 亿标记-掩码对。TokenOCR 在文本图像相关任务中表现出色，例如文本分割、文本检索和视觉问答。实验表明，TokenVL 在各种文档理解基准测试中取得了显著的性能提升，尤其是在 OCRBench 和常用的 VQA 任务上。

原文链接：https://arxiv.org/abs/2503.02304

...more