November 10, 2024

HourVideo: 评估一小时视频语言理解能力的新基准数据集

3 minutes

HourVideo 是一个新颖的基准数据集，旨在严格评估多模态模型对一小时视频的理解能力。该数据集包含一个新的任务套件，包括摘要、感知（回忆、跟踪）、视觉推理（空间、时间、预测、因果、反事实）和导航（房间到房间、对象检索）任务。HourVideo 包含来自 Ego4D 数据集的 500 个手动策划的以自我为中心的视频，时长从 20 分钟到 120 分钟不等，并包含 12,976 个高质量的五选一多项选择问题。

...more

View all episodes

By weedge

November 10, 2024

HourVideo: 评估一小时视频语言理解能力的新基准数据集

3 minutes

...more

Share HourVideo: 评估一小时视频语言理解能力的新基准数据集

Sign up to save your podcasts

HourVideo: 评估一小时视频语言理解能力的新基准数据集

HourVideo: 评估一小时视频语言理解能力的新基准数据集