March 22, 2023

S30E05 最近の AI は本当すごいね！

26 minutes

ZENKEI AI ポッドキャスト、シーズン３０は２０２２年６月２９日に開催した ZOOMライブの模様です。

この日のテーマは「技術書典１３企画会議、ほか」です。

エピソード５は、パート１「最近の AI は本当すごいね」の後半、顔の 3D 再構成や NeRF など、です。

当日の市來の発表資料

zenkei-ai-podcast-20220629-05.m4a

ビデオ見れる人はこちらからご覧ください。

（以下は、OpenAI の Whisper を使って文字起こししたものを修正したものです。）

** 注：以下は未編集の草稿です **

こんにちは。ZENKEI AI FORUMです。

皆さん、こんばんはです。今日は2022年6月29日、6月の最終週のAIフォーラム、ZoomLiveです。

ということで、本題に戻ります。AKさんが山のように紹介して、その他の人たちもいっぱい、今回の学会に対してこんな論文が出た、出たとか、実際の研究者の人たちも、ほらこういうポスター出したよとか、いっぱい情報が流れてくる中で面白そうなやつを、さらっと紹介するかなと思いますが、もう一個トレンドっていうかな、令和時代、2022年、トレンドがね、やっぱり世の中日々変わってきてる。重きを、ウェイトがどこに置かれてるかっていうのがやっぱり変わってきてるよねっていうのが、如実に感じて、で、AIの部分に関してもね、僕は嬉しい方向で、僕のような応用、もうモデル、研究者じゃないですからね、僕はね、AIはね、使う側なんだけども、そういう側にとってはすごく良い世の中になってきたな、実験すぐ簡単にできるっていう話ですけども、かつては、かつてはっていうかな、プレプリに出すっていうのはね、結構情報のオープンにするっていう意味で、すごい前進だと思う。そもそもだからあれですよね、GoogleがTensorFlowをオープンソースにしたっていうのはやっぱり、あれは偉大ですね、あれが今の発展の起爆剤になってますからね。あそこはもっと称賛されるべきかなっていう気が、僕はやっぱり振り返るたびに思いますけどもね。AIの研究において、プレプリにプレプリサーバーでみんな誰でも読めるよっていうのはもう当たり前。その次の段階でね、論文では何か良いこと書いてあるけども、これ本当に書いてある通り動くの?っていう。僕ね、物理屋さんだったんだけども、それも数値物理っていうの、コンピュータシミュレーションが主軸にあったんですけども、もうだから何年前、20年30年前の頃に一生懸命やってたんだけども、あのね、正善説、正悪説みたいなのがありますよね。で、論文、プログラム、コンピュータシミュレーションって要するに、科学っていうのは再現性こそが大事なのに、数値シミュレーションの世界っていうのは長らく再現性を第三者が客観的にするっていう仕組みが浸透しなかった世の中だったんだよなと思って。で、まあ僕がいた頃はそういう感じで、なんかすげー不満を感じてたんですけども、っていう話は僕が下で示す同人誌の中にも口を書いてます。赤い本のやつね。で、ソースコードを公開しろよと。そうすると、当時公開をしぶった人たち、僕もね、何でもかんでも公開するぜって言うほど太っ腹ではなかったかなっていう気はしますけども、公開したくない理由はね、わかるんですよ。みんなやっぱりコンピートしてるわけですから、コンペティターにすぐに再現できるネタをね、ポンってあげて、巨人の肩に乗るっていうの、俺の肩にコンペティターをポンってみんな気楽に乗せるかよっていう気分はわかるんだけども、それが科学っていう仕組みを本質的に既存するようなアプローチだったらいかんだろうっていう気はずっとしてた。そういう意味で僕は、自分のコードは最終的には足を洗ったとか前か、もう記憶がオルオーバーですけども、極力オープンソースにしようと思って上げてますけどもね。AIの分野においてはもっと迷路なオープンな、世の中早い仕組みで動いてまして、プレプレに投げるってのは当たり前で、その後すぐにもうね、コードもGitHubですぐ公開するっていうのが当たり前になってて、だからこの論文面白そうって言ったら、GitHubに行けばだいたいオフィシャル実装もあるし、第三者っていうかな、学生さんとかそういうのが論文を見ながら独自実装したものもいっぱいあるしっていうんで、ユーザーの立場からすると検証とかもね、それをやって、できたできないっていうのを簡単にできる、いい世の中だなっていうのがこれまでだったんだけど、もうもう一段階ね、ここ数年、世の中が進んできて、コードだけじゃ不十分だと。もうすぐに使える。でも、までもう研究者がね、ポンって出して、ほらみんな使ってごらんよ、こういうふうに動くんだよっていうところまで来たんだなっていうのを今回僕は感じましたね。これを推進してるのはHugging Faceですね、やっぱりね。Hugging Faceが、Hugging Faceサイトでホスティングして、AIのモデルをすぐWebで使えるようにしますよっていうのを提供していることがやっぱり重要なあれだったんだろうけども、そういう流れになってるなと思いました。なので今日も、1個だけね、僕が実際に動かせたやつを1個だけ、そういうデモサイトでやったデモを共有して、他はさらっとこういうの面白そうだねっていうのを話して終わりにしようかなと思いますが、5月にね、踊ってみたって言って、リアルアバターを作るっていうセンスでね、写真1枚から、写真は2次元ですよね、2次元情報から、3Dアバター、3次元ストラクチャーを再構成するっていうタスクをAIにやらせようっていう話があって、これ結構もう最近ここ数年、2年とかで、どーんと多分進歩した領域の一つだと思うんですけども、その成果が、一期がね、赤口氏と坪倉氏の横で、ユニティちゃんの後ろで踊れたっていうのはその成果なんですけども、似たようなことでね、アバターって言ったらやっぱり人間は人の顔に対してすごくセンシティブで、コミュニケーションするときの表情とかが非常に重要なキーになります。そういう意味では、リアリスティックな顔の造形を簡単に取れるっていうのは、オンラインコミュニケーション、メタバースの文脈とかね、重要になりますねっていうんで、当然、アテンションはここに高まっているわけですが、そういう研究もどんどん出てきていると。その中の一つね、これ僕ツイッターで見かけて、へーと思って見たやつで、Simplified Spline Motion Model for Image Animation。これはこのサイトに行けばありますし、僕下に置いたんですけども、論文はここね、AKさんのツイートですけども、ここ論文は言及してないな、いきなりデモサイトですけども、Hugging FaceのSpacesだ、Hugging FaceのSpacesっていうところがデモ幅広くですね、ホスティングしてくれるサービスをしていて。これなんですよ。これいいね。Jackie Chan。日本の僕たちの世代はみんな知っている、みんな大好きのJackie Chanですけども。Jackie Chanの動画表情の動きに合わせて、ポートレート、顔写真1枚あれば同じように動かせるよっていうAIですね。こういうのは別に珍しくないんだけども、これが写真1枚アップ、このHugging FaceのSpacesにアップすれば全部できるよと。本当どれぐらいでできるのっていうのをやってみた。今のページに自分の顔写真をアップすればいいんだ。やってみよう。これは別なAIのモデルを実験するときに撮った、まだもうちょっと僕、髪の短い頃のここの部屋で撮った僕の写真ですが、このカメラでスクショパシャッと撮ったやつですけども、そこから顔を切り抜いて、今のこのサイトにアップロードして、ドライビングビデオはJackie Chanのままで作りました。そしたら僕はJackie Chanのように穏やかな喋りが、本物はこんな喋りをする感じなんだけど、さあどうなったかっていうのをお見せすると、左側です。これね、動機をうまくしようと。ちょっとずれちゃった。いかがでしょうか。これすごいよね。僕見てて、いや、これはこれに声つけてたら、多分普通に、俺喋ってると思われるなと思いましたね。目の動きとかも全部綺麗にトラッキングできてね。皆さんもぜひ、このページに行けばいいだけですからね。このページに行って、自分の顔写真をここにアップロードして、もし喋らせたい動画ファイルがあれば、ここに動画ファイルをさらに入れれば、後は出力がここに出てくるだけですからね。すごい。すごかったです。すごかったのはこの結果のあれですけどね。っていうのはこれ1点。でも、この分野っていうかね、これ結構今、盛んみたいですね。次見つけたのはDAGAN。DAGANは何の略だ。Depth Aware GAN。For Talking Head Video Generation。こっちのDAGANもHugging Faceにあるんだな。僕まだこれ試してないんだな。ビデオもアップしなきゃいけないのか。Example. Ah, Driving Video. OK?僕ね、誰か知ってる人いるかな。この女の子。変顔するビデオの顔の女の子がいるんですよ。これ別なやつで浮世絵の顔に合わせてやるデモのビデオでも使われてた子なんだけど。これをやったらどうなる?これやったらこうなるのか。これでここに俺が行けばいいのか。Cancelでどうやったら。これ消して、こうやればいいのか。OK、いくぜ。クリック。アップロード。ごめんなさい、今急にやる気になっちゃった。でも何分くらいかかるか。そんな時間かかんないと思うんでちょっと待ってください。今ライブで。どっちだ?こっちだ。自分のパソコンのHome Directoryの複雑機械のAIフォーラム。OK。Kiのオリジナルじゃなくてこれかな。オリジナル。こっちだ。よしよしよし。Submit。もうね、僕自分の顔とかをね。Submitした?これSubmitした?どこに?これちょっと待ってよ。これ使って。あ、動いてた。何回もSubmitボタンの連打をやめた方がいいですね。23秒。そう、こういうのね、昔だったらね、僕とかね、このアップされた画像を向こうがキープしてなんか悪用されたら嫌だなとかっていう気がして、警戒してこういうところにアップしないぜと思ってましたが、もうね、さっきも言ったTwitchをやるぜとか、今もYouTubeライブやるぜとかって言ってるから、もう俺の顔気にしないように好きに使ってよっていう気分で、もうだんだん何でももう近接にアップできるようなメンタリティを持ってきましたけどね。でも気にする人は気にするんでしょうね。1分経ったけどまだ結果出てこない。これのオリジナルビデオをさっきから言ってますけどね。何なんだろう、クレジットとかちゃんとしてくださいよ。有名な人なのかな。できた。8秒。これはダウンロードできるのかな。ダウンロードしておきたいな。ダウンロードしておこう。ちょっと再生してます。なんか違う。なんか違うね。あーわかった。一人で楽しんでるね。ごめんね。皆さんね。ビデオ2でしょ。今ね。悪いことじゃないけどね。わかった。こっちのね。Simple8SplineMotionModel、こっちの方に同じものを入れて違いを比べればいいんだ。気がついた。ひらめいた。ひらめくってほどのことじゃないけどね。これ。いちきさんがドライビングビデオはあのビデオね。ビデオはビデオ2っていうのがダウンロードにあるはずだ。ビデオ2っていうのがダウンロードにあるはずなんですよ。ダウンロードにあるはず。ビデオ2。ビデオ2ありましたね。オープン。おーでけぇ。これでどれぐらい、あれどこに行けばスタート?どこに行けば行けんの?ボタンが出てこないよ。これどこに行くんだっけ?これってどこにあるの?まあいいや、これできないわ。また後で報告しますが。これやってみたいな。なんでこんなにお姉さんでかいの?ステップ2でステップ3に行きたいんだ。OK。Generate。これどれぐらい時間かかったっけな。もう一回さっきのDAGYANの方の僕の変顔ビデオを見てみましょうかね。これさっきダウンロードしたんで、いけてると安心して。最初の口の表情嫌いだな。できたかな?30秒。これちょっと裏で。これ裏でもちゃんと走っててくれるのかな?顔をね、これ三次元的なものを把握しながらディフォームするっていうことなんだと思いますけどね。その他、顔をビデオで駆動して走らせる。ディープフェイクっていうね、オバマが喋らせるみたいなのが一時期話題になったのと同じですよね。応用例としてはね。REIA、レーセントイメージアニメーターが新しくて、ファーストオーダーモデル、モーションモデルっていうのが前あったやつで比較したよっていうツイートがこの人のやつですね。これはGitHubに上がってるコードで、GitHubからクローンして自分で実行するんだな。だからデモサイトがあるわけじゃなくて、自分でやんなきゃいけない。GramHDっていうのは、これサイト見に行けばいいですか?同じような感じなんだけど。3D Aware GAN。これはコードはない。コードはない。残念ながら。RigNerveで顔をトラッキングするのかな?こいつもGitHub。ページはあるけど、多分ソースコードはまだない。IMAvatarっていうのも似たような感じで、写真から3Dモデルとテクスチャーなのかな?を出してくれる。GitHubはあるけど、コードはあるのか。だけどデモはない。その他もGAN2Xはコードはない。Epigraphもコードがない。Romeもコードがない。Realistic OneShot Mesh Based Head Avatarsもコードがない。BoxGraphもコードがない。遊べるのはやっぱり上の2つぐらいじゃんっていう感じだったっていう話ですが、まだやってるな。これまた後で見に行きます。っていうのが、顔の3次元のやつの最近の出来事でした。どれもやってみたいなと思うし、興味ある。話次に行きます。3次元再構成がやっぱり今盛り上がってるっていうか、出てきたのはNerfっていう技術がやっぱり注目されているのと、あと同時にNVIDIAが提供しているInstant NGPっていうツールがあって、なんかね、僕これ使ってみたいなと思ったんですが、このページに行っちゃってみよう。Nerfってね、僕の浅はかな理解ですけど、レンダリングすること、つまり映像を作る、視点を変えるんだけど、映像を作るっていうところがターゲットになってる。本当のPureの3次元リスコンストラクションじゃないのかなと思ってるので、応用の仕方っていうの結構いろいろあるのかなっていうのは考えなきゃいけないのかなと思ったりもしてますが、こんなのが写真パシャパシャパシャって撮ったやつをInstant NGPってツールに投げて、アプリケーションでフニョフニョにやるとこういうのができるらしい。おお、すげえってこれやってみたいと思って、いろいろ見てたんだけど、ビルドするのがなんか大変そうね。なんで今日のプレゼンは断念したんですけども、今みたいな。一番面白かったのはね、これも綺麗だったな。あと一番面白かったのこれね。人のツイートをすげえすげえって言うだけっていうのは楽なお仕事ですけど。左が実際の入力画像で、右側がInstant NGPって書いてありますが、NVIDIAのさっきのツールで再構成したビデオね。撮影したポイントだけじゃなくて視点をある程度自由に動かせる。こうなると。厳密に3D再構成っていう文脈で言うと、今引きでやった時の外れてるポイントクラウドっていうか、ああいうのがどうしても気になりますけども、アートとして見ると面白いですよね。あとさっきのこれもね、これもね、これもね、入力画像に違うものをかましたりして、幻想的なやつにしてる感じなのかな。応用例なんでしょうね。幻想的な、3次元世界が構成されて。さあってそろそろできたろう。ああ、きたよ。さあ、一岐さんの変顔をちょっと見てみよう。何事もなくなる前にダウンロードしておくと、やっぱりあれだな、このお姉さんの動画は動きが激しいんですよね。やっぱりあれだな、このお姉さんの動画は動きが激しすぎて、ちょっとディフォーメーションが不自然な感じにもなるけど、でもさっきのDAGYANよりはいけてんじゃないかな。AIすごいね。どっちもどっちか。8時過ぎちゃった。というような感じで、NERVも面白そう。そうそう、これね、ビルドするぞと思って、ちょっとドキュメントとか読んでみたんだけど、GUIね、GUIアプリケーションだから、GPUマシンにリモートで接続してとか言うとなんかめんどくさいし、ドッカー一発とかやりたいなと思ったら、なんかあーめんどくせーと思って、ちょっと時間かけられなかったんで、これスキップでしたっていうんで、そういう感じでね、やっぱり3次元をたくさんの画像から、岩間さんの話しましたけども、ライダー、センサー付いたスマホでいっぱいパシャパシャとった情報から3次元再構成するみたいな直接的なアプローチはありますけども、AIで画像の間の位置関係を割り出して、それで3次元再構成するっていうのは一つ順当な方法としてもあるので、なんかやりたいですね。この辺はライダー系の3次元スキャニングのアプリケーションで、これでこういうのができるみたいなのがTwitterにたまたま流れたりとか。あと面白いのはあれね、Darlie2っていうのが、生成する画像のクオリティがめちゃくちゃすごすぎて、みんななんかアーティスティックにいかに、かっこいい絵を作り出すテキストをひねり出すっていう使い方をしている人間がたくさんいるっていう、AIに使われているような感じのシチュエーションがありますけど、そのラインですね、テキストを入れて画像を生成するみたいなやつで、こんなことができるよっていうのもデモサイト付きでいっぱい出てて、いろいろやってみたいなと思って、指を加えてじゃないですけども、なんか見てましたが時間がなかなかなかったんで、できませんでしたが。という感じで、締めにしたい。パート1はこれでこんな感じで、最近のAIはすごいねっていう話を、今のでレビューしたということで終わりにしようかなと思います。

...more