今回のテーマは「動画AIが"眼で考える"時代へ」。2025年9月にGoogle DeepMindが発表した、コンピュータビジョン分野の常識を覆す研究について解説します。
これまで画像認識の世界では、物体検出にはYOLO、セグメンテーションにはSAMといったように、タスクごとに専門のAIモデルが必要でした。しかし、動画生成AI「Veo 3」は、画像とテキスト指示を与えるだけで、62種類もの視覚タスクを追加学習なしで実行できることが実証されました。
番組では、Veo 3が迷路を解く様子や、物理法則を理解して石は沈み、ペットボトルのキャップは浮くことを正しく表現する能力など、具体例を交えながら解説。特に注目すべきは「Chain-of-Frames」という概念。これは、LLMが文章で段階的に考えるように、動画モデルがフレームごとに視覚的な推論を行うプロセスです。
また、前バージョンのVeo 2から、わずか数ヶ月で迷路解決の成功率が14%から78%に向上したという驚異的な進化速度や、プロンプトの書き方次第で性能が大きく変わるという興味深い発見も紹介。現時点での課題や失敗例も含め、バランスの取れた視点で技術の現在地をお伝えします。
視覚AIが「見て、理解し、考える」能力を獲得しつつある今、私たちはコンピュータビジョンの「GPT-3モーメント」に立ち会っているのかもしれません。
Paper: https://arxiv.org/abs/2509.20328
Book: https://amzn.to/4nAM1zw
note: https://note.com/rami_engineer
X: https://x.com/rami_engineer