December 03, 2025

Ep.726 ByteDanceの次なる一手「Vidi」──動画を“見て理解し、自在に操る”統合型AI（2025年12月4日配信）

3 minutes

今回は、TikTokや動画編集アプリCapCutを手掛けるByteDanceが発表した、新しいAIプロジェクト「Vidi」について解説します。これまで、動画に関するAIといえば、「テキストからゼロから動画を作り出す（Soraのような生成AI）」か、あるいは「防犯カメラの映像から不審者を見つける（認識AI）」といった具合に、「作る」と「見る」は別々の技術として発展してきました。しかし、今回登場したVidiは、この二つの能力を一つの脳ミソ、つまり一つの「LMM（大規模マルチモーダルモデル）」に統合してしまったのです。

Vidiの凄さは、動画を「見て理解する」能力をベースにして、高度な「編集」を行える点にあります。例えば、ユーザーが動画をアップロードして「このシーンの天気を雨にして」や「走っている犬を猫に変えて」とテキストで指示したとします。従来のAIであれば、単に映像の上からフィルターをかけるような処理になりがちでしたが、Vidiはまず映像を深く「理解」します。「ここに地面があり、空があり、犬がどのような姿勢で走っているか」という文脈を把握した上で、まるでプロの編集者が作業するように、自然な形で雨を降らせたり、動物を入れ替えたりすることができるのです。

また、逆に「この動画の3分ごろに何が起きた？」といった質問に答えさせることも可能です。つまり、Vidiは動画に対する「目（認識）」と「手（編集）」の両方を持っているわけです。

ByteDanceがこの技術に注力する理由は明確です。彼らは世界中で使われているTikTokやCapCutという巨大なプラットフォームを持っています。もしVidiの技術が将来的にスマートフォン上のアプリに組み込まれれば、私たちは撮影した動画をアップロードし、チャットで指示を出すだけで、高度なVFX（視覚効果）を使った映画のような映像を一瞬で作れるようになるでしょう。「動画を作る」時代から、AIと対話しながら「動画を直感的に操る」時代へ。Vidiはその転換点となる重要な技術と言えます。

...more

View all episodes

By ikuo suzuki

December 03, 2025

Ep.726 ByteDanceの次なる一手「Vidi」──動画を“見て理解し、自在に操る”統合型AI（2025年12月4日配信）

3 minutes

...more

Share Ep.726 ByteDanceの次なる一手「Vidi」──動画を“見て理解し、自在に操る”統合型AI（2025年12月4日配信）

Sign up to save your podcasts

Ep.726 ByteDanceの次なる一手「Vidi」──動画を“見て理解し、自在に操る”統合型AI（2025年12月4日配信）

Ep.726 ByteDanceの次なる一手「Vidi」──動画を“見て理解し、自在に操る”統合型AI（2025年12月4日配信）