Seventy3

【第244期】TokenOCR:Token基本文本图像LLM


Listen Later

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法方向,让大家跟着AI一起进步。

进群添加小助手微信:seventy3_podcast

备注:小宇宙

今天的主题是:A Token-level Text Image Foundation Model for Document Understanding

Summary

来源描述了一种新型文本图像基础模型,称为 TokenOCR,以及利用它构建的文档理解多模态大语言模型 TokenVL。研究人员通过创建一个大规模、细粒度的标记级图像文本数据集 TokenIT 来预训练 TokenOCR,该数据集包含 2000 万图像和 18 亿标记-掩码对。TokenOCR 在文本图像相关任务中表现出色,例如文本分割、文本检索和视觉问答。实验表明,TokenVL 在各种文档理解基准测试中取得了显著的性能提升,尤其是在 OCRBench 和常用的 VQA 任务上。

原文链接:https://arxiv.org/abs/2503.02304

...more
View all episodesView all episodes
Download on the App Store

Seventy3By 任雨山