
Sign up to save your podcasts
Or
各位听众朋友们好,我是敢想老田。今天咱们聊点硬核的视频AI的推理革命。您没听错,就在上个月,港中文和清华的科研天团搞了个大新闻,他们推出的VideoR1模型,居然用7B参数的小身板,在视频推理测试中干翻了GPT4o!
这事儿得从视频AI的智商困境说起。老田我观察AI圈这么多年,发现视频模型总像个直男谈恋爱看得见画面,读不懂潜台词。比如看到人拿起钥匙就预测要出门,结果人家只是把钥匙挂回挂钩。但这次不一样,研究团队把强化学习里的R1范式移植过来,就像给AI装了台时间显微镜。
他们发明的TGRPO算法有多绝?我打个比方以前AI看视频像翻连环画,现在要求它必须按顺序看完盗梦空间才能答题。模型会同时收到乱序和顺序两版视频,只有按时间线正确推理才能得分。这就逼着AI学会前因后果的思考方式看见咖啡杯打翻得先发现有人碰倒了文件夹。
更妙的是数据策略。团队搞了个推理健身房先用165万图像数据给AI练基础逻辑相当于教小孩搭积木,再用26万精选视频数据强化时间理解就像进阶到乐高机械组。这种图像筑基视频精修的训练法,让模型产生了类似人类的顿悟时刻比如能分析出从书柜到浴缸的最优路径,而不是简单识别家具。
测试结果更有意思当输入帧数从16帧增加到64帧,模型准确率直线上升。这说明真正的视频理解不是截图连连看,而是要把时间线当推理线索。有个实验特别震撼让AI判断哪个动作导致能量损耗,VideoR1能像侦探一样串联所有动作节点,而传统模型只会盯着单帧瞎蒙。
现在这套系统已经全部开源,包括算法代码和数据集。老田觉得最值得玩味的是,他们没走堆参数的土豪路线,而是用精妙的机制设计,证明了小模型也能有大智慧。这给行业指了条明路与其疯狂卷算力,不如想想怎么让AI真正看懂时间的魔法。
下个十年,当您的智能家居能预判咖啡洒落的瞬间,或者自动驾驶能理解鬼探头的前兆,记得今天这场视频推理的静悄悄革命。我是敢想老田,咱们下次见。
各位听众朋友们好,我是敢想老田。今天咱们聊点硬核的视频AI的推理革命。您没听错,就在上个月,港中文和清华的科研天团搞了个大新闻,他们推出的VideoR1模型,居然用7B参数的小身板,在视频推理测试中干翻了GPT4o!
这事儿得从视频AI的智商困境说起。老田我观察AI圈这么多年,发现视频模型总像个直男谈恋爱看得见画面,读不懂潜台词。比如看到人拿起钥匙就预测要出门,结果人家只是把钥匙挂回挂钩。但这次不一样,研究团队把强化学习里的R1范式移植过来,就像给AI装了台时间显微镜。
他们发明的TGRPO算法有多绝?我打个比方以前AI看视频像翻连环画,现在要求它必须按顺序看完盗梦空间才能答题。模型会同时收到乱序和顺序两版视频,只有按时间线正确推理才能得分。这就逼着AI学会前因后果的思考方式看见咖啡杯打翻得先发现有人碰倒了文件夹。
更妙的是数据策略。团队搞了个推理健身房先用165万图像数据给AI练基础逻辑相当于教小孩搭积木,再用26万精选视频数据强化时间理解就像进阶到乐高机械组。这种图像筑基视频精修的训练法,让模型产生了类似人类的顿悟时刻比如能分析出从书柜到浴缸的最优路径,而不是简单识别家具。
测试结果更有意思当输入帧数从16帧增加到64帧,模型准确率直线上升。这说明真正的视频理解不是截图连连看,而是要把时间线当推理线索。有个实验特别震撼让AI判断哪个动作导致能量损耗,VideoR1能像侦探一样串联所有动作节点,而传统模型只会盯着单帧瞎蒙。
现在这套系统已经全部开源,包括算法代码和数据集。老田觉得最值得玩味的是,他们没走堆参数的土豪路线,而是用精妙的机制设计,证明了小模型也能有大智慧。这给行业指了条明路与其疯狂卷算力,不如想想怎么让AI真正看懂时间的魔法。
下个十年,当您的智能家居能预判咖啡洒落的瞬间,或者自动驾驶能理解鬼探头的前兆,记得今天这场视频推理的静悄悄革命。我是敢想老田,咱们下次见。