August 23, 2023

S38E04 Transformer を完璧に理解する！（まとめ）

21 minutes

ZENKEI AI ポッドキャスト、シーズン３８は２０２３年２月２２日に開催した ZOOMライブの模様です。
この日のテーマは「ChatGPT 話題ですね」です。

エピソード４は、パート１「Transformer を完璧に理解する！」のまとめです。

当日の市來の発表資料

このブラウザでは再生できません。
再生できない場合、ダウンロードは🎵こちら

ビデオ見れる人はこちらからご覧ください。

（以下は、OpenAI の Whisper を使って文字起こししたものを修正したものです。）

** 注：以下は未編集の草稿です **

こんにちは、ZENKEI AI FORUM です。
はい、皆さんこんばんはです。ZENKEI AI FORUM、2023年の2月22日、2月の回になります。

なので、まとめねパート1のまとめですGPTをスクラッチから実装してみました皆さんは知っていると思いますが、知らないといけないので言っておくとトランスフォーマーっていうのがさっきの論文の提案した方法ですさっきのっていうのは、Attention is all you needっていう何年の論文だあれは僕読んだって言ったやつねどこを見れば一番わかるか、これを見ればわかるかな2017年の論文これがモデルのアーキテクチャなんですけどもトランスフォーマーというものはこれだっていうのが一般的な認識ですけどもこいつはエンコーダーデコーダータイプのモデルなんですねつまり入力があって出力があって、それは翻訳系のタスクに適用されるタイプのモデル、アーキテクチャになっているそれってどっかに書かなかったっけ大雑把に言うと左側がエンコーダーに相当していて右側部分がデコーダーに相当していますエンコーダー部分っていうのはどういう仕事をするかっていうとエンコーダーもデコーダーも入力は文字列エンコーダー左側の方は文字列をもらってベクトルを出力するだからセンチメントアナリシスとかやりたいって言ったらエンコーダーを使ってテキストを入れてそいつの特徴量ベクトルみたいなのから怒ってる怒ってない感動してるしてないみたいなのを評価するっていう風に使うそれが左側のパートで翻訳とか何をしているかというと入力の文字を読み込んでコンテキストっていう特徴量ベクトルみたいなのを掴んどいてそいつと入力をデコーダーの方が読み込んでコンテキストを理解して入力各入力に対する出力を一個一個上げていくとその時に英語が入力で出力がフランス語ですよとかっていう風な処理をするのがいわゆるトランスレーションに使うようなタイプエンコーダーデコーダータイプそれが今全部右と左がガッチャンコしたものがそれになってるんだけども右側の部分をデコーダーと呼ぶとデコーダーは何かっていうと今言ったようにコンテキストベクトルみたいなのを左からやってくるものをとりあえず無視しておくと入力はテキストが入ってくるんだけどもその入力が入ってくるテキストの一個一個に対して次の出力次の出力っていうのを順繰りに返していくのがデコーダーなのでデコーダーだけ抜き出したらどういう機能が実装できるかっていうとラムゲージモデルが構成できるテキストを途中まで書いたものを与えてその次の文章を次の文字をよこせそれを繰り返しやれば文章を互換するというか完結させるラムゲージモデルが構成できるなのでこの図の右側だけを取り出したのがGPTのアーキテクチャですよとそれを今今Androidのビデオを見ながら実装したそれがGPTちなみに左側の部分は有名なモデルで言えばBARTっていうものに相当するものですねという話ですはい暖かくなってきたのでえーとなんだっけなんだっけGPT何の話をしようとしたすぐに忘れるよねGPTを完璧に理解するであれで終わって終わったんだけどまとめをどういうふうにするか微妙なところだねっていう雰囲気を話そうと思ってGPTとはっていう話をしたのがGPTはトランスフォーマーのデコーダーですとだからトランスフォーマー完璧に分かったっていうのは言い過ぎじゃないかっていうのは言い過ぎでもないなぜならば右側のパーツは全部実装したわけですね右側のパーツと左側のパーツってパーツ自身は同じなのでここにねマスク度とマスク度が入ってないマルタイヘッドアテンションっていうのは違うじゃないかっていうんだけどもこれは修正は簡単というか変更は簡単なんで基本的に右側全部もう実装終わったよって言ったら左側を構成することは何の問題もなくできるしそういう意味でトランスフォーマーを構成するレイヤーは全部もう書いたよっていう意味で完璧に理解しましたOKとやったことねポジティブな話ね完璧に理解したとトークナイザー初めて使ったTikTokサブワードタイプのトークナイザーを使ったとこれはお手軽やなと思いましたGPTファミリーで使われてるやつだからねデータのやり取りとかエンベディングスでだけ公開されてるのかなそういう細かいことをやってもなっていう気分になってるってのは最後までいけばわかるんですけどもいきますいきますでランゲージモデルをいくつかのデータセットに対して実際に学習させて結果を見てGPTで動くランゲージモデルの結果はこれぐらいかっていうのは見ました実際に皆さんと見たとおりですけどもその印象があんまり良くないあんまり良くないっていう意味はかつてRNNねLSTMとかを使ったランゲージモデルは実際にコーディングした経験あります青空文庫とかねニーチェのデータセットジェレミーのFast AIのレクチャーとかでRNAのスクラッチから書いたりした懐かしいねことあってそれぐらいできるのはわかってるし今までも経験してるんですけどもそれに比べて今回のGPTモデルはすげーなって感じるところがあったかって言ったらなかったね見ての通りなんでなかった理由は何だろうっていう風に考えますけども多分ほぼ答えはわかっているんで下の方に行きますがしかし一方でポジティブなサイドを見ようと思ったらね同等なことができるのはわかったでアーキテクチャを見るとアーキテクチャねさっきのやつねこれねもちろん論文のタイトルにあるようにRNNっていうのは基本的にえっとあれねウェイトリニアレイヤーが一個なりユニットがあってそいつに入力を逐次入れていくっていうサイクルを回してそのレイヤーに学習させてそのレイヤーにエッセンスをが入るはずだっていう信念のもとに作られたのがRNNでそれだけだと長期記憶っていうかね長いスパンでのコリレーションみたいなのがどうしても失われてっていうのは逐次的にどんどん入っていくっていうシグナルを受けて学習していくっていう構造がいわゆるだから足りないものとしてアテンションっていうメカニズムをRNNの上に導入したっていうのはLSTM with Attentionっていう話っていう歴史的な経緯があってでこれってのは何かっていうとそのRNN部分どんどん入力をもらって蓄積データが蓄積されていくっていう部分はもういらんとエンベディングしたものを並べといてその間のコリレーションここの場所とここの場所の間のコリレーションというアテンションをベクトルにしてそこに情報を積み上げようっていうだけで文字を順繰りにもらってくるここのベクトルっていう部分はないっていう話ですねなのでリカランス部分がなくてアテンションだけでだからアテンションっていうのはベターとあるのでメモリー効率とか大変だねとかあるんだけども逆にシンプルでですねとRNNの部分リカレント部分はやっぱり本質的じゃなかったっていうことなんだなっていうのは分かったと理解したとそこは分かったでも同等やねっていう印象しかいなかったってことねと思ってたんだけどスケーリングっていう話が同時にあるんですねTensorやTransformerに関してはこれ論文も見てて見ててっていうか存在は知っててきちんと読めてないですけども上っ面だけ言うとTransformerはシンプルな構造でデータセットのサイズっていうのが重要なファクターその1モデルのパラメータサイズっていうのが重要なファクターその2でこの両方ともを上げていけばそれにこうして性能も上がってくる性質がTransformerには顕著であるっていうことがどうも分かっているらしいとなのでそれのどっかに限界値があるのかないのかってのが一番最初に気になるところだけどもそこはちゃんと読めてないんだけどもどうもOpenAIが発表している論文でOpenAIはそういうスケーリングっていうものをTransformerの持ってるスケーリング性を重視して要するにね高い性能が欲しければスケールアップしろとそれで全部解決やという土俵になってるのがTransformerだっていうのが今の僕の心理的な風景なんですねでそれだとつまんねーなんていうか僕はどっちにしても貧乏な立場の側にいる人間なんでねだからまあ金持ちっていうかなリソースリッチなところが物量でぶん殴るっていうことで世の中を石鹸するっていう話になるんやねっていう風なアンタントル気持ちになってるだから今回もなんかGPT自分で作ったからねなんかこれで面白い応用とかしたいなとかできるかなっていうのを無双しながら学んでたんだけども多分データセットもある敷地を超えないと面白いこととかは出てこないだろうしモデルのサイズもある程度にでかくしないと多分面白くてはできないんだろうなっていう風にっていう風に腹落ちしたっていうのかなでもじゃあそうやって悲観してる要素ばっかりなのかっていうとそうでもなくてそれこそ昨日とかおとといとか数日間の話だけども当然ねコマが出揃えばみんなが血まなこになって弱点っていうのかな調査をして抜け道を探すっていうかねメモリー数つまりねGPUのリソースが少なくてもでかいモデルを学習させられるみたいな話がほらタイムラインに見かけてみんな感動してて僕もそれこそ一つの活路じゃんみたいな話があってそれ面白いなと思って見ようと思ってたのは昨日とかなんで僕今日の話には組み込めてませんがそれはちょっと調べておきたいなと思ってますこの資料の中にも多分入ってないですけどもトランスフォーマーの話は大体これで終わりっていうか時間的にもねまとめのこのね30分で完全完全理解するトランスフォーマーの世界この資料は良かったですおすすめですここにねここ多分日々アップデートされてるんじゃないかなこのページは最先端のところまでっていうのはね何が最先端っていうのかは僕自身学んでる途中なんだけどもここに書いてあってスケーリングとかの話もここにきちんと書いてあったと思いますけどもこの辺ねこれスケーリング結局物量で打っただけっていうのを実践しているのがオープンAIでありGPT-4なんだろうなっていうふうに思ってあああとはぶったりって感じですけどもいやもちろんスケーリングの話ねはいっていう感じですあとねあのAndroidのシンプルなGPTで飽きたらない人は60行でGPTを書くっていう人もいるんでこっちにチャレンジしてみたら面白いんじゃないでしょうかっていうこと短い行数で書くコンテストに僕は本質的に全然興味ないんですがこれ一つ面白そうと思っているのは何パイだけで書いてるんですね最初の60行ってやつはでAutoGradとか多分余分に何も考えてないよね純粋につまり学習プロセスは考えてなくて学習済みのウェイトを引っ張ってきてインフェランス、ランゲージモデルで生成する部分を実行を行うGPTの実装を60行で書いたよっていう話なんだけどもでそれだけで終わったらああそうですかなんだけども前から僕気になってるのはTensorFlowをPyTorchに変わるAutoGradライブラリっていうかディープラーニングフレームワークというかJAXっていうのがあってそれにどういうものか触ってみたいなってずっと思ってたんだけども何パイで書いたこのGPTをJAX化して学習バックプロパゲーションを導入して学習するっていう風にバージョンアップがすぐにできるらしいっていうんでJAXの入門としてこれいい素材なのかなと思ったりもしてるので時間があったら見ておきたいって言ってるっていうことは時間が多分起きないのでやらないっていう宣言にしてほしいなかもしれないけど興味ある人はこれ見てみたらいかがでしょうかという話かなですでチャットGPTの技術的な表面的なねわちゃわちゃっていうのは置いといて論文を読むとかっていうレベルあと自分でチャットGPT的なものを自分でスクラッチからAndroidのノリでやるっていうことは面白いんじゃないかなと期待してAndroidのビデオを見始めたんだけどさっきも言ったように面白いことが起きるのはスケールがある程度でかくなんないと面白いこと起きそうにないなと思ってちょっと泣いちゃってるんだけども技術的な要素として何がここまでチャットGPT的なものをノーマルなランゲージモデルはそれだけではほぼ使い物にならんっていう実用ビジネスとかね実用的なファンクションで使い物になる何しろ空想のねラリってるおじさんと同じだからね使い物にならんでしょうそれを使い物にするための技術っていうのをこの辺でインストラクトGPT、チャットGPTそれっていうのは何かっていうとファインチューニングであり人間、ヒューマンフィードバックをどういう風にモデルに反映させるかっていうことなんだなっていうのがだんだん分かってきてそのためのシステマティックなテクニカルな方法論としてリンフォースメントラーニングっていうものが使われていてリンフォースメントラーニングwith human feedbackRLHFっていうのは手法のキーワードとしてあって教科学習っていうのは今まで僕はもう面白くねと思ってずっとスルーしてたんだけども人間とコンピューターがうまく折り合いをつけるっていう部分にこれが多分キーになってるっぽいんでなんか学ぶなら今がそのタイミングなのかなと思ったりもしていますがパッと調べた限りにおいて学ぶべき要素が多すぎてちょっとアップアップになってるって感じですねチャットGPTの検証においてジェレミーがスティーブン・ウォルフラムにお前ちょっと違って外してねえかっていうコメントをしてたっていうのはありましたねっていう状況でねウォルフラムはどういうアレなんですかねアルファとか出しててアルファ今AI研究者の評価は高いんですかね低いんですかねその前にオートマトンの超大な本をスティーブン・ウォルフラム書いて出しましたよねその時の僕の身の回りにいたアカデミアのプロフェッサーたちの評判があんまり良くなかったんでウォルフラムはちょっと外してる人なのかなと思ったりでもマスマティカの偉大さはね誰も否定できないですけども今回もしばらく前に熱力学完璧にわかったとか書いてましたからねスティーブン・ウォルフラムなんか落ち着いて見ておきたいなと思いますがはい、ていうことがパート1でした

...more

View all episodes

By Kengo Ichiki

August 23, 2023

S38E04 Transformer を完璧に理解する！（まとめ）

21 minutes

当日の市來の発表資料

...more

Share S38E04 Transformer を完璧に理解する！（まとめ）

Sign up to save your podcasts

S38E04 Transformer を完璧に理解する！（まとめ）

S38E04 Transformer を完璧に理解する！（まとめ）