
Sign up to save your podcasts
Or


今回は、TikTokや動画編集アプリCapCutを手掛けるByteDanceが発表した、新しいAIプロジェクト「Vidi」について解説します。 これまで、動画に関するAIといえば、「テキストからゼロから動画を作り出す(Soraのような生成AI)」か、あるいは「防犯カメラの映像から不審者を見つける(認識AI)」といった具合に、「作る」と「見る」は別々の技術として発展してきました。しかし、今回登場したVidiは、この二つの能力を一つの脳ミソ、つまり一つの「LMM(大規模マルチモーダルモデル)」に統合してしまったのです。
Vidiの凄さは、動画を「見て理解する」能力をベースにして、高度な「編集」を行える点にあります。 例えば、ユーザーが動画をアップロードして「このシーンの天気を雨にして」や「走っている犬を猫に変えて」とテキストで指示したとします。従来のAIであれば、単に映像の上からフィルターをかけるような処理になりがちでしたが、Vidiはまず映像を深く「理解」します。「ここに地面があり、空があり、犬がどのような姿勢で走っているか」という文脈を把握した上で、まるでプロの編集者が作業するように、自然な形で雨を降らせたり、動物を入れ替えたりすることができるのです。
また、逆に「この動画の3分ごろに何が起きた?」といった質問に答えさせることも可能です。つまり、Vidiは動画に対する「目(認識)」と「手(編集)」の両方を持っているわけです。
ByteDanceがこの技術に注力する理由は明確です。彼らは世界中で使われているTikTokやCapCutという巨大なプラットフォームを持っています。もしVidiの技術が将来的にスマートフォン上のアプリに組み込まれれば、私たちは撮影した動画をアップロードし、チャットで指示を出すだけで、高度なVFX(視覚効果)を使った映画のような映像を一瞬で作れるようになるでしょう。 「動画を作る」時代から、AIと対話しながら「動画を直感的に操る」時代へ。Vidiはその転換点となる重要な技術と言えます。
By ikuo suzuki今回は、TikTokや動画編集アプリCapCutを手掛けるByteDanceが発表した、新しいAIプロジェクト「Vidi」について解説します。 これまで、動画に関するAIといえば、「テキストからゼロから動画を作り出す(Soraのような生成AI)」か、あるいは「防犯カメラの映像から不審者を見つける(認識AI)」といった具合に、「作る」と「見る」は別々の技術として発展してきました。しかし、今回登場したVidiは、この二つの能力を一つの脳ミソ、つまり一つの「LMM(大規模マルチモーダルモデル)」に統合してしまったのです。
Vidiの凄さは、動画を「見て理解する」能力をベースにして、高度な「編集」を行える点にあります。 例えば、ユーザーが動画をアップロードして「このシーンの天気を雨にして」や「走っている犬を猫に変えて」とテキストで指示したとします。従来のAIであれば、単に映像の上からフィルターをかけるような処理になりがちでしたが、Vidiはまず映像を深く「理解」します。「ここに地面があり、空があり、犬がどのような姿勢で走っているか」という文脈を把握した上で、まるでプロの編集者が作業するように、自然な形で雨を降らせたり、動物を入れ替えたりすることができるのです。
また、逆に「この動画の3分ごろに何が起きた?」といった質問に答えさせることも可能です。つまり、Vidiは動画に対する「目(認識)」と「手(編集)」の両方を持っているわけです。
ByteDanceがこの技術に注力する理由は明確です。彼らは世界中で使われているTikTokやCapCutという巨大なプラットフォームを持っています。もしVidiの技術が将来的にスマートフォン上のアプリに組み込まれれば、私たちは撮影した動画をアップロードし、チャットで指示を出すだけで、高度なVFX(視覚効果)を使った映画のような映像を一瞬で作れるようになるでしょう。 「動画を作る」時代から、AIと対話しながら「動画を直感的に操る」時代へ。Vidiはその転換点となる重要な技術と言えます。