ZENKEI AI ポッドキャスト、シーズン35は2022年11月30日に開催した ZOOMライブの模様です。
この日のテーマは「最近の宿題〜数理クイズ解答編ほか」でした。
エピソード5は、パート2「Diffusion Model ちょっと分かります」です。
このブラウザでは再生できません。
再生できない場合、ダウンロードは🎵こちら
ビデオ見れる人はこちらからご覧ください。
(以下は、OpenAI の Whisper を使って文字起こししたものを修正したものです。)
** 注:以下は未編集の草稿です **
こんにちは。ZENKEI AI FORUMです。
はい。こんばんはです。2022年11月30日。11月最後ですね、今日ね。 ZENKEI AI FORUM です。
ってことでえーと今8時半ですけどももうちょっと喋りますパート2ディフュージョンモデルちょっとわかりますディフュージョンモデルをねあのステーブルディフュージョンをね 勉強書っていうのは数ヶ月前にもあの論文を出してねこれ読まなきゃいけないねってあれだ技術書店が終わったのが9月末でしたね あの時にステーブルディフュージョンの本とかが何冊か出てたねーって言って僕もきちんと 勉強したいねっていう話をしてましたそれをきちんとやろうという企画ですが 論文読んでもねいまいちねピンと来なかったんですねが今回ちょっとブレイクスルーがあってですねああわかってきた ちょっとわかったと思ったのでそれを紹介しようと思ったんですが時間切れなんで 完璧にわかったっていうレベルに多分あと一月になればなるんであのね冒頭で言ったようにねなんでその段階でまとめをしようかなと思ってます でえっとそれは置いといてディフュージョンモデルネタではですね最近のニュース ありましたバージョン2っていうのがねスタビリティ ai からアナウンスされましたなんかねあの 物事の進歩のスピード早いですね今回はいろいろ たんなるテキスト2イメージに 限定されずにこれサイト見に行けばいいななんかねー 超改造も中に入ってるあと3次元 デプス推定も組み込まれているとかなんかねこれスーパーレゾリーションね だからハイレゾの画像も出力することができるこれこれとかねすごいね あとこのデプス推定をに基づいてオクルージョンねもうきちんと考慮された aターゲティングっていうかができるというような 随分と進歩の方向性も 広がりの能力も当然広がりので いろいろね懸念事項とか上がっているものに対する対応とかもいろいろ本家ステーブルディフュージョンさんは入っていてのなんかねあのすごいなと これがこのままのスピードでどんどん進んでいったら世の中どうなるんだろうな1年後とかね あのいろいろ考えさせられる進歩ですけどねハードマルさんは今ステーブルディフュージョンの人になったんですよね twitter 有名な人ですけどはいっていうアナウンスが最近のニュースでありましたが ステーブルディフュージョンというかディフュージョンモデルっていうもののあの方法論ですね あのきちんと抑えたいなぁ ずっと思ってたんですけどもログ読んでもわからなぁと思っていましたずっと がそうこうしてたらですね あのai フォーラムを始めたね理由の一つであるところにジェレミーハーワード ファスト ai のジェレミーハーワードのさんのあの アカウントで今年度の今年度はねアナウンスの時ねステーブルディフュージョンをスクラッチから全開設世界で初めてするぜっていうのを 歌い文句にしてましたジェレミーよね でそれのビデオが公開され始めましたあのきちんと登録とかお金払ったらいいのかなあの登録とかしないしてないので あの僕はただ日常を過ごしてましたが一般公開普通に誰でも見れる形でビデオが順次 2022年の後半 part 2のシリーズっていうことですけどもスタートしましたね a レッスン9と10まで出てましたねこのうちのレッスン9っていうやつを見たんですねこれはpart 2のあの なんだまとめっていうかね第1回でこういうのを目指しますよみたいな大雑把な解説だったんだ けどもそこでステーブルディフュージョンをスクラッチからスクラッチからっていうセンスは あれをオートグラッドも自分で書くっていうセンスで今回やるらしいよだからあもっと言えば 何パイも使わないとか言ってみんなギャーって言ってたらしいねそこまでストイックに並んでもいいんじゃないのって思うんだけど まあねはいあのジェレミー流のでレッスン9で 8ジェレミー節が炸裂してですねあのステーブルディフュージョンに使われているロジックって言うかですね仕組みを 紙砕いて説明してくれましたコードとかはこれからのシリーズどんどん詳しくやってくる今言ったハードコアにね何パイも使わないでパイソンだけで書くって話なんでね まあやってくださいって感じで僕はそこまで行かなくてもいいって感じですけどもこの概略だけで結構目から鱗落ちましたなの ちょっとわかったってかもうもうわかった気になってますっていうことでそれを今の時点で紹介したいなぁと思ったんですが さっきから言ってるように時間切れなんで今の時点で予告編ね次回予告あのします ok ok これちょっとしたにしてジェレミーのやつをさらっと見て見る前に論文はねキーとなる論文は一通り 眺めてはいたんねただどこにフォーカスがあるのかよくわかんないし何を狙ってるのかよくわかんない っていう状況であでもないこうでもないと思ってたんだけども整理できたのでその整理された内容をみんなに共有ってかね まあ2番戦時だからみんなもあのこれ聞いてもそれがしとったよっていう話かもしれないですけども まとめさせてくださいねえっとステーブルティフュージョンとかディフュージョンモデル生成テキスト2イメージのこの仕組みっていうのは 8たくさんのプレイヤーが共同で頑張ってそういう機能を作っているっていうことがまず 一番大きなポイントですとまあそれは分かったんですけどねただその区分けっていうのは結構明確にパーツは分かれてるねってだからそれぞれを きちんとマスターしていけばわかるあのそういう指針がなければなんかどれも根前一体となってよくわかんないなーっていう モードだったんだけども今回整理できたとジェレミーの解説によって 8メインのプレイヤーは4ついますと一つ目は ユネットでこの人の役割は d ノイズの水を 落とすっていう機能を分担しているプレイヤー でもう一番目はオートエンコーダーオートエンコーダーさんの役割は何かというと 画像っていうものを8オートエンコーダーだから画像を1回シュリンクして特徴量ベクトル的なものにしといてそれをもう1回復元したら元に戻るよっていうのがオートエンコーダー ですね何が嬉しいかというと情報圧縮するっていうシュリンクさせ特徴量ベクトル的なものに 変換するって言うそこには 復元するために必要な情報は全部詰まっている情報を圧縮するという8別な言い方をするとレイテントベクターって言うんだけども それを生成するプレイヤー3番目はクリップクリップ有名ですね今回一連のねあの gpt gpt がわーっと盛り上がったその後ダリーが盛り上がったことのメインプレイヤーはこのクリップなんです けれどもクリップさんは何をするかというとテキストと いろんなものをくっつけるクリップの場合はテキストと画像っていうものをくっつける機能機能的にはやっていることは8 エンベディングですねワードベクトルを作りましょうみたいなセンスとスピリットは同じで画像とテキスト の類似性みたいなのをえっとうまく学習して8 行くっていうエンコーダーですエンベディングずの役割をするパーツで4番目っていうのはスケジューラーで呼ぶのがいいのかよくわかんないんです けれどもこの人の役割は何かというと生成モデルなんで結局僕たちがわーわー言っているのは生成モデルの部分はこの スケジューラーさんの役割分たで具体的にはノイズ何もないところっていうかね何もないところって言っていいんだけど ランダムノイズから目的の綺麗な画像を出すっていうプロセスを司るのが4番目いう4 4つのプレイヤーが共同で頑張った結果がステーブルディフュージョンでありダリー2みたいなものだと なるほどでえっと僕は今個人的に興味があるのはやって興味がないのが エキストでねあれこれね指示を出さないと動かないコンピュータプロ ai プログラムって僕は中のあの触手が動かないっていうかね ああっていう感じなのでここはとりあえずあんま興味がないっていうのと8オートエンコーダーの部分はあの これはあれねステーブルディフュージョンが8 pc でも動くよっていう部分に大幅に貢献している部分であって プロセスを軽くするってことねターゲットがでかい画像を直接扱うっていうのはなかなか大変なことなんだけども ちっちゃいベクトルにしちゃってそれをやるっていうことによって8 gpu の必要なものを減らしましょうっていう効率化なので 今回僕いろいろテストしたいなと思うねちっちゃい画像であの物事を学ぼうと思ってるんでここもスキップしていいよ とっていうことで フォーカスはユネットとスケジューラーの部分をしかもこの2つをきっちり分けて物事を見れば いいんだなぁっていうのは分かったと論文を見るとね 主に議論されているのは4番なんですねで4番と一番の関係が 全然見えなかったんだけど今やっとわかった でいろいろ試行錯誤したんだけどもそれぞれにポイントがあるっていうことはもう分かった なんでちょっと分かったとか偉そうなこと言ってるんですか一番に関するユネットのポイントは何かっていうと ノイズ処境っていうのはユネットさんの役割分担なんだけども普通ねノイズ処境をやりましょう ai でって言ったらみんなどういうふうに考えるって言ったらねあの ai の学習ってのは入力と出力のペアが教師データとして準備されててそれを 8ニューラルネットに学習させるっていうストラテジーはどこでも同じですね教師あり学習の文脈においてはその時に普通 これ暗黙の家庭なんだよねだからある意味コロンブスの卵的な発想なんだなって今回僕は認識 したんだけども普通ディノイジングしようと思ったらノイズが乗った画像が入力でノイズがなくなった 綺麗な画像がアウトプットっていうモデルを作ろうってもう思っちゃうじゃないですかとそういうペアを8教師データとして ねユーネットでもオートエンコーダーでも何でもいいんだけどもイメージ2イメージのニューラルネットを学習させようと思うっていうの普通の考えなんだ けどもまあなかなかうまくいかんねっていう話がずっとありました そこに対してこれコロンブスのたまノイズを予想するっていう問題仕立てにしちゃえと これ何回も思い起こしてねこれクレバーやなぁと思ってますねそうじゃない僕の考えが甘い朝儚な理解で言ってますけどもこれ結構 一つのブレイクするのポイントだったんじゃないかなと思ってますでもう一つ スケジューラーの方の話っていうかスケジューラーっていう呼び方でいいのかどうかわかんないですけども生成プロセスねあのノイズからギャンとかもノイズから画像を出すっていう そこの部分の話だけども歴史的に言うと コンピュータサイエンスの人がサイエンティストの人たちがやっぱりノイズからどうやって画像を作り出そうかっていうのを一生懸命一生懸命考えて 議論してこねくり回してやってたその結果がディフュージョンモデルっていうものであってなんでディフュージョンモデルっていうの って言ったらえっとねランダムなところノイズから画像を生成するというプロセスを逆方向に見ると拡散だと熱拡散だとエントロピー増大しているというプロセスだというふうなアナロジー で一生懸命こうねあの道のないところに道を作ろうとしてた結果 いろんな付加的なアイディアとかが乗っかって今ディフュージョンモデルと呼ばれているものになってそのえっとノイズからあの画像 生成する確率方程式をそういう目で見るとこれランジバー方程式ね確率を各拡散プロセスの 時間発展が逆にしてるのまあまあ8に見えるいうんでもう 統計物理のねあのアナロジーをフルに使ってあてもない子でもないってやってるんだけれども ジェレミーも言ってたようにあと僕も最初から最初からっていうとアレだなあとだしじゃんけんだな えっと思うのは画像生成のプロセスが 熱力学に従ってる必要はないよねと拡散プロセスである必要はないよねと 手場非現実的でも素晴らしい画像がポンと出てくればそれで勝ちじゃんっていう世界なん だから別にねあの拡散 方程式の枠内でソリューションを探す必要すらないわけだよねコンピューターの上での出来事だから だからジェレミーも言っちゃうけどあのt っていうパラメーターを媒介パラメーターみたいなのを 8ユーネットの方にあのコンディションとして入れる必要もないんじゃないとか言ってたりするような話とか a ねいやもっともだまあここは何か僕まだフワフワしているところであのや 僕とかがしっかりあの抑えとかなきゃいけないなぁと思った理由の一つは僕あの物理学位持っててっていうんで所属がね 非平行物理統計物理の研究室に所属してたんであのやをこれを俺がやんなくてどうすんのっていうシチュエーションかなぁと思ったんだ けどもそんなことはないとむしろ物理のセンスから自由な発想で行った方があの 健全だっていうふうに今思ってそれでもまあやろうが理解したいなと思ってるんですけどもそういうふうに思ってあの でジェレミーもなんか企んでるみたいなこと言ってねあのここの辺のプロセスをもっと効率的な方法がある 今仮にねプレリーミナリーなくで行ったらあのここブレイクするようなことがあるんだみたいのを言っててそれはさもありなんと思うしそうだなと思いましたのでいろいろ見通しが 良くなったんで改めてあのディフュージョン論文 読んで完璧にわかったって言えるところまで行って来月発表したいなと思いますということでちら見せねそんでも試行錯誤やってプレイヤー1とプレイヤー 4ねあの部分の今言った感覚がどうして得られたかっていう分もちらっと見せて予告っていうことにします ユネットのでノイズディノイズ言ってるようにね綺麗な画像にノイズを載せるっていうのは人に的にいくらでもできるんで 教師データはどういう形であれ作れるんですねでさっきも言ったようにユネットで学習させているこのフレームワークで学習させている 課題っていうのはノイズが乗った画像が入力っていうことはそうなんだけども出力を ノイズがない画像ではなくて乗っけたノイズを予想するように学習しろそういう データローダーを作りますっていうのは簡単なんですね人に的にシンセサイズできるんですけどもでこれ最初のこのちら見せは何かというとそうやって学習させた後ノイズを予想しろ って言ったモデルであのね左の4つ4列と右の4列っていうのが対応してますとで左側が左側の4列が プレディクションモデルが出力したもので右側の4列が8今の場合は 正解でさっきも言ったように今のユーネットのモデルはノイズを予測しなさいって言ってるから右も左もね ランダムカラーのランダムノイズになってるのはそういうことなんねこれ見てあってるかあってないかわかんないよね なのであの後処理ねモデルが直接扱ってるのはこういうふうにランダムノイズを予想しろっていう問題を溶かしているそういう意味でノイズっていう普遍性がある情報を取り出す っていう方が学習効率は当然いいだろうなぁと思って頭いいと思ったんですねねー 2番目のスクショは何かというと左側が入力モデルつまり8これちなみに画像データセットはサイファー ハンドレット1ハンドレットを使っています32かけ32のちっちゃい画像ででそいつにノイズを乗っけたものが入力で右側が これはグランドトゥルースっていうかノイズは乗っかってない サイファーハンドレットの実際の画像で右側のものを ノイズを引いた後に右側のものになれば嬉しいねっていうのが今の状況の失来です でこのスクショは何かというと左側同じように入力画像で右側っていうのがモデルが予想したのは一番上に見せたようにランダムノイズなんだけどもランダム ノイズからが得られるってことは入力も分かっている基地だから入力から予想されたノイズを引けば正解画像に近いものになるでしょうっていう風にして計算した えっと復元された画像で復元された画像と がやっぱり右側の左側にえっとサイファーハンドレットのオリジナル画像を並べたのが一番最後のスクショ これ見るとディノイズ ユーネットは結構 これ高田金あの数時間回しただけなんだけどこれぐらいでてるねだからこれちょろい問題やんと思うもちろんサイズがちっちゃいってもあるんだ けどもそれで考えたのはノイズを予想するっていう問題にしたからこれ結構こういうふうに効率的に計算できているのかなと思ったって話ですね でちらみせそのにで ノイズからどうやって8画像を生成させていくのかっていうプロセスの部分ですけども今試行錯誤というかね論文のアルゴリズムを見ながらあのあれこれしてて今学習した いうネットを使って8生成させるっていうと上から下にだんだんこう 画像が浮き上がってくるみたいなプロセスをやってるんだけども出来上がった画像はねあの 何なのっていうコンディションとかつけてないんでアンコンディションなるなあの生成プロセスを今考えてますがっていうのはクリップとか考えてないね 何かしら画像はランダムのピュアなランダムのですからできてる部分はできたんでこれをこの方向でもうちょっと深めてみようかなと思っていると いう次回予告でしたはいということで話を終わって ちゃん森さんとの茶談会モードになるかなちゃん森さんいますかはいいますいますかはいえっとじゃあ俺あのシェアを終わりにしてはい こんばんは1はすごいネクタイ姿 アーチ帰ってすぐつけだありがとう忙しいどうもねありがとうございます8忙しいのそれともあほんださんは youtube にいらっしゃいますこんばんはさっきライン送ってきたけど アヌそうズームにはズームにはね来てないんですけどもいやいやあの youtube にあります こんばんははいa はいねちゃん森さんですけども最近忙しいですか そうですねでも先月ほどじゃないんで今日はこれましたねはいありがとうございます 812月 なんか者発表できる何もないですねあそうか シューズうんはいしょうがないねあのなんかいつでもネタが発生したらあの 声かけてください時間はいつでも作れますんでああああのジャム記法を送ったの届いた ああ見ましたはいどうよあのガンの映画いい感じです あ大島さん大島さん見てましたありがとうございます大島さんですねえっと本田さんも大島さんもあの 今回の印刷したジャム記法お送りしましたあのいかがだったでしょうか結構ね 結構頑張ったあのボリューム2は僕結構気に入ってますねあれは雑誌っぽいっていうかね本っぽいですよねあの僕がなかなかとか言ってるって言うのはあるんだけど あの疲れたっていうよりもあのね前傾 i フォーラム今あのこうやって毎月やってる やつをポッドキャストにしてかつあの文字起こしをね ai でするようになったらこれ原稿になるやんと思ってあのボリューム3 ジャム記法ボリューム3はねもう僕のエッセイは山ほどあるなと思って思ってるんですよ あ大島さんカラー版ねカラー版読みたいんだったらamazon でお金払って買ってください アマゾンに置いてあるやつねあれフルカラーなんですよフルカラーなんですよあれ結構いいですよフルカラーね まあいやそんでえっとはいありがとうございました8 今回の数理クイズ今回の数理クイズ ちゃん森さん見てだわかったあれだけ見てわかんないかな出ましたけど難しいなぁと思っていました 難しい難しいよねまぁ難しいんだけどでも式としてはあれだけだからねあそこで示した式だけだからね もう人数のなんとかのでえっとなんとかかけるにの会場みたいなそれだけであの絵が出てくるわけだから 考えてみようっていう話ですね今回は逆に k を求めるってこと そうねなんですねうんなんか0と1のあった集まりから 0から9の数を作り予測するみたいな感じになるんですかねだから全然わからんなぁと思って 見てました考えて考えてはいえっとねオンラインでご覧の方もぜひ考えてみてください あの僕僕はいろいろ考えてあの多分ね ピントっていうかねぇ僕ってあのあのコンピュータ電子工学科じゃないね まあ理学部物理学科なんでコンピューター知識は全部独学でありが流なんですけどもきちんと正規に8コンピューターサイエンスとか 学んでる人にとっては実はあのほぼトリビアルかもしれないっていうのはあの 一応ヒントとして言っておきますね全然ヒントじゃないかはいあのなんで 考えたらあのきちんとあのね答えがある問題なんで考えたら考えた見返りがあるのであの ぜひチャレンジしてもらったらいいかなと思います8 ディフュージョンモデルっていうかステーブルディフュージョンの話はちゃんもりさんなんかわかりました あいや詳しいこと全然わかってなかったんですけどなんかそういうことやってるんだなっていうのは少しだけわかりましたね自分で何 回 a とか書いたりはしてますかいやそれはしてないです 萌えとかが好きな人はなんかハマりそうだよ僕とかはで何のねそうそっち方向じゃないんで絵を作る方はもうあの あのザム気法に一生懸命作ったのでもうあれで終わっちゃってもいいやって感じじゃないよね だからそういうなんか印刷物とかあんねさしえがちょっと欲しいとかっていうのはもう ほぼそれで作れちゃう世の中になっちゃったね うんだからまあそれを進歩という言うんでしょうねきっとね それが多分あの街でかかってる bgm とかさ音楽 今日音ネタ結構フィーチャーしたけど音楽も生成系のものでいろいろ作れそれなりのあのクオリティのものを作れるようになってるから そういうなんていうのあの言い方悪いけども使い捨てコンテンツっていうのがあの人の手を借りなくてもできるような世の中に なるんやなそうなった後にさあどうなるんでしょうっていうかね例えば赤が本当に仕事を失うのか 8そういうファインアートみたいなのはきちんと残るとは僕は思うんだけども 同じように音楽もねあのいいミュージシャンの音楽っていうのは多分生き残るんだと思うんだけどもうみたいなね その時にどう両立するのかみたいなのはそういう世の中はねあのどうなのかというのはわかんないですけどねはい ayoutube 本田さん大島さんはあきらの ai 画像がすごかったあきらの ai 画像って何だっけなかったかな 漫画のやつですかね秋はわかんないのはい あ写真が社会に一般化した時みたいなのかなぁそうね技術的にはそうですよね あのねあのよく例えで言われますからね画家の仕事を写真機が奪っちゃうみたいなことが起きた 起きないみたいだねあので実際に今だってが彼の人は存在してるんじゃないかっていう話があるように みたいなねでしょうねきっとね世の中ねあの変わるところと変わらないところっていうのは いつでもだって cd がさレコードを駆逐するか言われて レコード愛好家は僕のようにねレコードいまだに買ってるとかレコードプレイヤーをわざわざ買い直すとかっていう ような話と今僕ねあのねカセットテープレコーダーのいい奴が欲しいんまあいやあのはいいいという感じで8あ9時過ぎちゃったねはい8なんか 全体的にコメントありますか感想とか今後もあの時間見て参加してください あのねあの参加してくれる人いると嬉しいですはい励みながらはい 入ったら副操数の話してて懐かしいなと思って聞いていますうつもないかわからなかったんですけど 8副操解析って学んだ大学とかで大学1年時に いやいましたあのコーシリーマン熱もそうで副操設計分までやりますすごいすごい 僕はね単位は多分取ったはずなんだけどもうねあのね使わないからわかんないねあの流数定理とかで全然のから分計算できる とかっていうのはへーすごいねーって言うパスをねこうやってでもこうとっとってとゲイに飛ばす 0になるからとはもうはい入って感じだったねよくない経路をどういうふうにとってもいいみたいな 変換できて話ですねはよくわからなかったんですけどまあだからあの今回のやつも a 結局 生息関数じゃないんだけど配当地にもだからコンプレックスの微分がそのまま入ってるから何も考えないで 副操作関数を打ち込めばそのままやってくれるっていうだけみたいなんだよねだからただや言ったように山繰り返しになってねあの遅いな みんなあれで嬉しいのかな嬉しいさがまだ僕には伝わってないんだなぁっていうんで ね見てる人ではの僕が何か見逃していることはこうなんだよって分かったら教えてくださいっていうことで よろしくお願いしますっていうことで 数学はやっぱり大事だねきちんと勉強しなきゃいけないと思いましたっていうことでまぁあの取り留めもなくなりましたが9時も過ぎてるしは大島さん 流数定理懐かしいねあのあの僕 教科書引っ張り出してきたはいありがとうございましたじゃああの 来月もぜひあの顔出してほしいな忘年会的なノリでねあの1年を振り返りたいなと思うんで2022年大変な1年だったよね はいこれからも頑張っていきたいと思いますよろしくお願いしますってことでありがとうございました ありがとうございます youtube の皆さんもありがとうございましたあのねあのじゃあこれで今日は終わりにしたいと思います はいパチパチパチはいじゃあありがとうございました終わりにします