ZENKEI AI ポッドキャスト、シーズン33は2022年9月28日に開催した ZOOMライブの模様です。
この日のテーマは「技術書典13お疲れ様でした!」でした。
エピソード3は、パート1「(Stable) Diffusion 完璧に理解するぞ!」です。
このブラウザでは再生できません。
再生できない場合、ダウンロードは🎵こちら
ビデオ見れる人はこちらからご覧ください。
(以下は、OpenAI の Whisper を使って文字起こししたものを修正したものです。)
** 注:以下は未編集の草稿です **
こんにちは。ZENKEI AI FORUMです。
皆さんこんばんはですいかがお過ごしでしょうか 2022年9月今日は28日です。
30分押しになってますが、まあのんびりいきますと。パート1、そういう技術書店13をくぐり抜けたんですけども、で無事ザム記報 vol.2 出ました。でね、その後にやっと他のね、出展作品を見れる新居になって。っていうのは、あのね、僕の想像ね、事前に見る前に思ってたのは、今回だからね、あのStable Diffusion、Dally2からMid JourneyからStable Diffusionっていう流れで、Twitterとか見てれば、あの7月後半から、7月中、頭ぐらいから、8月、9月もう毎日のように新しい、ね、アウトペイントができましたよーとか、あとビデオが作れるようになったとかね、今日とかね、今日だっけ?なんか出てましたよね。そういう世の中で、そういう時に僕の想像ね、脳内では、いっぱいこのStable Diffusionネタっていうか、AIでお絵かきするネタの同人誌がいっぱい出るんだろうなーって思っていて興味はあったんですけども、で僕もそのネタを入れたいと思ってね、一個ね、頑張って書いたんですけども人の見ちゃうと、あの、漆筆遅れてるんでね、人の見ちゃうと、特に同人誌で内容が被ったりねすると良くないなぁと思ったり、流されたら良くないと思ったり、あと逆に、あれねあまりにもすごいものを読まされると、漆筆意欲を失いますよね、みんなね。それも嫌だなぁと思って、自分が書くっていうものを書き終わるまではそういう、少なくとも技術書店のものは見ないようにしようと思ってずっとやってたんですね。で、何とか書き終わってさあ、じゃあみんな書いてるやつ見てみようと思って見に行ったんですよ。したら、あんまりなかったね。Stable DiffusionとかDiffusion、AIでお絵かきみたいなのをググってあの、この技術書店で検索かけてもあんまりヒットしなくて、あれ?と思ってまあ、冷静に考えればあまりにも当たり過ぎるっていうオチなんでしょうねっていう気がするんですが、後ろに書いたんだけどねでもあと同時にね思ったのは同人を書く人の日本でね、あの文房っていうかマジョリティってやっぱりあの二次創作系のコミケっていうかそっちの人たちが主要な構成員で、で、ああいう人たちはスキルがあるんですよね。だから需要がそもそもなかったんかなっていうのも思ったりも後じえ的にね思ったりもしたんですが、あんまりなかった。あんまりなかったけどもパラパラと見て、ああ、あの重要そうなやつとかね、面白そう、これ読んでみたいと思ったのがいくつかあっていくつか、いくつかっていうのは2つかな。技術書店から購入してね、読んでみて、ああすげーと思ってレビューしました。連追ツイートでね。あの技術書店ってやっぱり営業チャンネルがあのツイッターなんでね、あのみんなの本が注目を浴びればみんなウィーミンだろうと思って、あの連追でね紹介のツイートをしたんですね。何冊あったっけ、1,2,3,4,5、自分の本入れて6冊紹介したんですね。1冊目は、あのこれすごかった、あのね。No.6ってあるようにこれ毎回ね、機械学習のタイタンタイタンって呼ばなきゃいけないんだろうけど、巨人のタイタンと書けてるんですね。タイタン、機械学習の巨人の人たちがですね、えーと書いた6冊目の合同詞ね、いや、言語覚えた。なんですけども、えーとここにね、あのTOMOメイカーさんだっけ、これきちんと名前があるですね。TOMOさんがですね、ステイブルディフュージョンの結構掘り下げて歴史から内容から書かれてて、これ読んですげーな、かなわんなと思いましたね。てか、まああの役に立ちました。もうあの腰据えて、日本語止め、簡単にね、パラパラって見る本ではないんですけども、すごいなと思いました。で、えーと2冊目、ディフュージョンモデルズ入門。この2冊買ったんですけども、これは、えーと論文ね、ほぼ出発点と呼んでもいい、この一連の流れのディフュージョンモデルの出発点であるところの論文、通称DDPM、Denoising Diffusion Probabilistic Modelの論文を読んで、しかも自分で、これ公式実装はTensorFlowのところをPyTorchで自分で再実装するっていうことで学んでいくみたいな、結構骨のあることをやられてる内容でした。その他もね、こういう本がたくさんあるのかなと僕は思ってた3冊目は、AIで書く、Stable Diffusionでイラストを出力するっていう本。これは僕買ってないんですけども、内容から、紹介の文からすると、多分プロンプトをこういう風なTipsですよ、みたいなのかなと思ったりしました。1、2、3、4、4冊目、Ubuntu Magazine、これも合同誌かな、その中の1章がStable Diffusionの話が盛れてると。5冊目が、これはメインはDockerとSageMakerの使い方みたいなところですけども、それの応用問題として、Stable Diffusionを実際にDockerで走らせてみようみたいな話が書かれているようです。この後ろの3つは僕持ってないんで、中身は紹介文を見て、Stable Diffusion関係してるなと思ってたっていうことです。6冊目は、我らが、XAMPP記法Vol.2、この中でStable Diffusionのネタはね、1個、2個記事があるというもんで紹介しました。でね、最後のこの連継のまとめとして書いたんだけども、そう、いやーって盛り上がり始めたのが、7月とか8月ですよと。で、技術書店って9月の10日スタートで、きちんとスケジュールしてる人はその後に締め切りを設定して、そこで完成してる本を出してるんですね。だから7月とかにパッて出てきたものを、本という形にパッケージングして、文章にして、9月頭にポンって出すっていうのは、普通に考えたら無理ですからね。それをこの人たちは曲がりなりにも、僕も含めてやって、このクオリティでっていうのは、もう仲間やなって。僕は僕のは短めだし、人の紹介、レビューっていうかね、YouTubeビデオと、深津さんのノートをすげすげって、すげすげって言ってるだけのことしか書いてないんだけど、他の人たちはきちんと入れて、すごいなーって言うんで、もう同志な気分になったっていうオチでした。でね、TOMOさん、そう、TOMO MAKESさんが、僕の買った2冊目のね、Diffusion Models New Moonのレビューもなさっておられました。こういうのを受けて、僕の場合はね、もう頭から言ってるようにここ忙しかった。Stable Diffusion何が悔しかったの?リアルタイムで起きてる出来事に、僕はリアルタイムできちんと、あの、なんだ、経験感じられることができるチャンスを棒に振ったっていう思いがすごくあって、あーって、追いつきたいなと思ってるんですね。で、いろいろ時間ができて、改めて見ていて、通り一遍のことやっててもつまんないなって同時に思って、やっぱりきちんと原点に当たろうと思いました。でね、まあまあ後であれします。ちょうど、そういう気持ちになった時にね、なった時にってか、なる前だな、これ9月の14日のツイートで、ほぼ同じタイミングで拡散モデルのサーベイ論文、レビューですね、が2本公開されてますよっていうツイートをしてくれた人がいて、そうかって、もうレビューが出るぐらいの、てかね、発展の時間タイムスケールはやっぱり、ディープラーニングはおかしいですよね。早すぎる。まあいいや。でも、レビューしてくれる論文があるっていうのは、後からね、参入する人にとっては非常にいい、入りやすい、全体像見やすくなる意味ですごくいいんで、よっしゃと、これちょっと見ようと思って、2本のこのレビュー論文見ました。実際に。1本目は、IEEEの、Diffusion Models in Vision。画像生成系に応用されたディフュージョンモデルにフォーカスしたもののサーベイ、レビューですね。で、はい、もう1本は、やっぱりもうほとんど同じタイトルですけども、Diffusion Models are a comprehensive survey of methods and applications.で、これもVisionに特化したディフュージョンモデルのレビュー論文になってます。で、この2本ね、えっと、特化借りにして、ね、Diffusion Models 完璧に理解するぞっていう機に、この間もトランスフォーマー完璧に理解するぞってあれはどうなったんだっていうツッコミが今聞こえてきてますけど、僕の脳内にね、見ながらね。トランスフォーマーもきちんと理解したいですね。用意。はい。で、このレビューはざっと、まあレビューですからね。理論とか詳しく書いてないが目を通しました。そしたら、まあ、あのね、同じターゲットに対して同じタイミングで書かれたもんだから当然なんだけども、同じようなまとめになってるなと思ったんですけども、だいたいね、状況としてはこんな感じになるかなっていう話ですけども、現状、Diffusion Modelって今呼ばれてるモデルは、タイプ分けすると3つのカテゴリーに大まかに分類されるよと。で、これは上から下にだいたい時間の流れ的にもそうなんですけどもっていう話ですが、さっきのね、Diffusion Models入門で、詳細に紹介されてたDTPMっていうやつはこれなんですね。Denoising Diffusion Probabilistic Model。このカテゴリーになるやつが、まあいわゆるクラシカルな、てかオーソドックスなDiffusion Modelと呼ばれるもの。その他にNoise Conditioned Score Networksで呼ばれるカテゴリーと、Stochastic Differential Equations。Stochastic Differential Equationsって別にDiffusionと関係ないじゃんっていう気はしますが、この文脈で言うところのSDEsっていうアプローチ。で、こいつがたぶん一番新しい見方で、この見方に立つと上の2つっていうのは統合的になんか、統一的に見ることができるみたいなことに流れになってるらしいっていうことと、で、Diffusion Modelではないんだけども、VAE、有名、一時期主役になるんじゃないかと言われてたVariational Autoencoder、DeepMindとかね、やつだよね。こいつとの関係性みたいなのも議論されていて、DDPMの特殊なタイプっていうふうに見ることもできるとか書いてありましたね。だから、Autoencoder系の話、あとGANね、当然画像生成系では有名になってGAN。あと、僕よく知らないEnergy Based Model、Autoregressive Model、Normalizing Flows、こういうものが画像生成系の今のトレンドっていうかね、の中にDiffusion Modelじゃないカテゴリーとしてこういうのもあります。そういうものとの関係もレビューには詳しく書いてあるみたいですけども、僕は読む時間がなかったので、そこまで読めてないけども、全体のプレイヤーはだいたいこんな感じがなってるなっていうのが分かった。あと、何がキーになってる論文かっていうのもピックアップしました。今更ですけどね。こいつがいわゆるStable Diffusionって言われてるものの理論ですね。Stable Diffusion Model、2021年12月、CompVis Groupの論文になってるんだな。これは読まなきゃいけないけども、多分これは応用編なんですね。これがいわゆるDeep Diffusion Modelを活用して、クリップを活用してText-to-Imageでパソコンでも走るような状況になった。すげえだろうっていう話。だからこれをゴールとして、ゴールっていうかな、これをアプリケーションとして、それの土台としてはっていうんで、Denoising Diffusion Probabilistic Modelのこの論文。これ2015年ね、これ多分、後先の話で、これが多分一番最初に時間的に辿れるっていうんで、言及されてるのかなという気がします。実質的にはこの2020年のDenoising Diffusion Probabilistic Modelっていうタイトルの論文がだいたい引用されてる気がしますので、これをまず特化解として読もうかなっていうふうに思ってます。読み始めたんだけど、結局ここで説明できるほど読めてません。あと3つのタイプがあるって言った、NCSNの論文がこれで、Stochastic Differential Equationsの論文がこれでっていうんで、これとか見てると、ソーンさんね。ソーンさんね。この人が一連の論文の著者です。だからこの辺読んでいこうと思ってます。多分ね、僕きちんと読まなきゃいけない人なんだなって思ったのはですね、毎回言っても僕一応っていうかな、元物理屋さんですけども、所属してたっていうか教育を受けた分野っていうのは統計物理なんですね。統計力学っていうかな、非平行統計力学。そうすると、Diffusion Model、Stochastic Differential Equationsとか言ってて、それって全部物理、そういうね統計物理からアイデアを釈用して、コンピューター、サイエンスに使ってるっていう、そういう話なんですね、全部ね。だから、僕はきちんと読まなきゃいけないところなんだな、むしろ。AIの関係の中でも特にここは、俺プロパーに近いところなんだから、きちんとやらなきゃいけないじゃんっていう気はしてるし。って思って、やらなきゃいけないなというふうに思ってるんで、今回きちんと全部完璧に理解するぜっていうのを、結構真面目に完璧に理解しなきゃいけないなと思ってるっていうことですけども。ということで、次回、今日は時間なかったんで、やるぜっていう次回予告です。ということで、括弧ステイプルね、Diffusion Modelを完璧に理解するぞっていうことで、高校期待ください。今からちょっと時間を取って、論文読んでいこうと思ってます。はい、ということで、長尻合わしたな、っていうかね。はい、パート2に進もうかな。あ、YouTubeが1人増えた。2人?5人の皆さん、こんばんは。コメントください。待ってます。えーね、あれだな。こういうノリで、Zoomに来てくれる人をお待ちしてます。Zoomへの入り方は、説明してなかったっけ?AIフォーラムのオンラインフォーラムあります。ここにZoomのリンクがあるんですが、ここにしかZoomのリンクを置いてないんですよ。っていうのは、ね、あの、変な人が来られても僕対応できないんで、っていうんで。AIフォーラムのオンラインフォーラムにアカウントこれ作ってもらう必要があるんだけども、作っていただければ見れるんで、で、アカウントはすぐに出しますので、そちらで確認して、Zoomにぜひ来てください。座談会にならなくても、まあ僕の独演会でもいいんですけども、ぜひぜひご参加いただければと思います。