Sign up to save your podcastsEmail addressPasswordRegisterOrContinue with GoogleAlready have an account? Log in here.
November 10, 2024HourVideo: 评估一小时视频语言理解能力的新基准数据集3 minutesPlayHourVideo 是一个新颖的基准数据集,旨在严格评估多模态模型对一小时视频的理解能力。该数据集包含一个新的任务套件,包括摘要、感知(回忆、跟踪)、视觉推理(空间、时间、预测、因果、反事实)和导航(房间到房间、对象检索)任务。HourVideo 包含来自 Ego4D 数据集的 500 个手动策划的以自我为中心的视频,时长从 20 分钟到 120 分钟不等,并包含 12,976 个高质量的五选一多项选择问题。...moreShareView all episodesBy weedgeNovember 10, 2024HourVideo: 评估一小时视频语言理解能力的新基准数据集3 minutesPlayHourVideo 是一个新颖的基准数据集,旨在严格评估多模态模型对一小时视频的理解能力。该数据集包含一个新的任务套件,包括摘要、感知(回忆、跟踪)、视觉推理(空间、时间、预测、因果、反事实)和导航(房间到房间、对象检索)任务。HourVideo 包含来自 Ego4D 数据集的 500 个手动策划的以自我为中心的视频,时长从 20 分钟到 120 分钟不等,并包含 12,976 个高质量的五选一多项选择问题。...more
HourVideo 是一个新颖的基准数据集,旨在严格评估多模态模型对一小时视频的理解能力。该数据集包含一个新的任务套件,包括摘要、感知(回忆、跟踪)、视觉推理(空间、时间、预测、因果、反事实)和导航(房间到房间、对象检索)任务。HourVideo 包含来自 Ego4D 数据集的 500 个手动策划的以自我为中心的视频,时长从 20 分钟到 120 分钟不等,并包含 12,976 个高质量的五选一多项选择问题。
November 10, 2024HourVideo: 评估一小时视频语言理解能力的新基准数据集3 minutesPlayHourVideo 是一个新颖的基准数据集,旨在严格评估多模态模型对一小时视频的理解能力。该数据集包含一个新的任务套件,包括摘要、感知(回忆、跟踪)、视觉推理(空间、时间、预测、因果、反事实)和导航(房间到房间、对象检索)任务。HourVideo 包含来自 Ego4D 数据集的 500 个手动策划的以自我为中心的视频,时长从 20 分钟到 120 分钟不等,并包含 12,976 个高质量的五选一多项选择问题。...more
HourVideo 是一个新颖的基准数据集,旨在严格评估多模态模型对一小时视频的理解能力。该数据集包含一个新的任务套件,包括摘要、感知(回忆、跟踪)、视觉推理(空间、时间、预测、因果、反事实)和导航(房间到房间、对象检索)任务。HourVideo 包含来自 Ego4D 数据集的 500 个手动策划的以自我为中心的视频,时长从 20 分钟到 120 分钟不等,并包含 12,976 个高质量的五选一多项选择问题。