August 20, 2023

S38E03 Transformer を完璧に理解する！（後半）スクラッチから GPT を実装！

27 minutes

ZENKEI AI ポッドキャスト、シーズン３８は２０２３年２月２２日に開催した ZOOMライブの模様です。
この日のテーマは「ChatGPT 話題ですね」です。

エピソード３は、パート１「Transformer を完璧に理解する！」の後半、スクラッチから GPT を実装！です。

当日の市來の発表資料

このブラウザでは再生できません。
再生できない場合、ダウンロードは🎵こちら

ビデオ見れる人はこちらからご覧ください。

（以下は、OpenAI の Whisper を使って文字起こししたものを修正したものです。）

** 注：以下は未編集の草稿です **

こんにちは、ZENKEI AI FORUM です。
はい、皆さんこんばんはです。ZENKEI AI FORUM、2023年の2月22日、2月の回になります。

じゃあスクラッチからGPTを実装するぜという話に行きますアンドレーさんは優しい人なのでさっきも言ってるのに今回のビデオに合わせてね今回のビデオサイトに一応行くか今YouTubeのライブ配信でその上でYouTubeサイトに行ってますがこれね山田電機ここあったらいいですねはいライブでも山田さんのはいねこうサイトで説明してます 2時間1時間56分ねえっとここ見ればわかるようにGoogleコラボノートブックもあれば GitHubのサイトもあればNanoGPTっていう名前をつけてこのビデオで説明しているコードベースのコードを共有しててっていうこともやってるですねすごく優しい人ですけども僕はみんなにあの良かったよって言いますがそんな甘いことを僕はしない皆さんにノートブックとかソースコードを共有僕はしませんまああのチートしたい人は今のAndroidのサイトに行けばソースコード見れるんですがおすすめしませんとその代わりにっていうかね僕はスクリーンショットを見せますで皆さんにやってほしい完璧にわかってほしいのは自分でタイプしろとか自分の手を使って一文字一文字打ち込んでみようよとこのねチャットGPTとかコパイロットは半分あーって言いかけた時点でもさっと全部埋めてくれるような時代に一文字一文字自分でタイプしてみようよとそれを提案するそしたらあなたの中になんか売るものがあるよっていうのね気づいてほしいなぁ時代に逆行してるね時代に喧嘩を売ってる感じですけども明らかにねえっとそれを真面目に推奨したいんですよ俺で完璧にわかった感覚っていうのはそれで出てくるんですよねだってググっ皆さんも経験あると思うけどもググってググってググってって言った結果って完璧にわかったって思えないじゃないですか翌日忘れてるでしょググっただけのものっていうのだけどタイプしたら翌日は覚えてるまあいいやいいすぎるねはい実際に僕は2時間のアンドレイのビデオをどういうふうに見たかっていうとこれジェレミーのファスト ai のビデオをどういうふうに見たかっていうのと同じなんだけどもこれ行けばわかるけどこれ今解説のところだけどねコラボのノートブックに実際に行動を示しながら説明してるねで文字が読めるから画像がねきちんとあの配列だからその時配列っていう文字読めるからこれ一時停止したらタイプできるのねタイプしろとタイプしてタイプがあれば動かないしエラーが出るし動いたらで結果も彼きちんとミシン見せてるから結構でシードもねあのランダム変数ねランダム j レーターのナンバージェネレーターのシードも同じ番号を使えば完璧に同じ結果が再現できるはずなんでねやってみようよというのをお勧めします皆さんには前期 ai フォーラムの一気はみんなにそれを進めするでえっと僕2時間のビデオ見ましたが多分ね深追いはしてないもう自己満で終わっててもそれでいいと思ってるんだが多分彼のビデオの中で紹介してたコードに間違いがあるみんなも見つけてみてくださいミステリーオタクみたいねねあのスクショね僕が手でタイプした行動今からスクショをお見せしますアンドレの2時間のビデオを見たら全く同じものでてきますパート2とあるようにパート1っていうノートブックを作ってでアンドレのビデオに従ってちっちゃいところからどんどん大きく作っていって最後に動くところまで行くみたいな形になってるそういうノートはパート1に入れてそれを一旦ビデオ見終わった後によっしゃって完成形の部分だけ引っ張り出してきたのがこのパート2の僕のノートブックですけれどもねこれで全部 gpt の機能が全部入ってて学習もできて8 インフランス実際にランゲージモデルなので文章の生成もできるコードができましたざっと見ていきますパイトウォッチを使ってますでえっとシードはねアンドレと同じ1337のシードを使ってっていうんでデータファイルはえっとまずはアンドレと同じシェックスピアのデータセットを彼のデータセットがあるんでそれをダウンロードしてきてローカルにありますとインプットテキストってもらうでえっと彼がビデオで示しているようにトークナイザーは彼のビデオで説明しているのはキャラクターベースのトークナイザーキャラクターベースのランゲージモデルを作ってNLPをやってますなんでアルファベット abcde大文字小文字数字記号みたいなのがトークに入ってるものですデータローダーも自前でねgetバッチっていう関数で持ってくるということをやっているでモデルはの定義はビデオの中ずーっとやってますが8 結果だけねここで僕はタイプしたもんねまずヘッドっていうクラスを作っててそれは何かって言うと一番ユニットの部分でアテンションの8アテンションユニットの一番へあのコアの部分でキークエリーバリューの3つのチャンネルっていうのはそれを使って8入力から出力を出すっていう部分の実装なんだけれどもここに僕は多分アンドレのコードに間違いがあるいうことを見つけた8ねノーマリゼーションの解説を彼自身がノートブックとは別のところでほらこういうふうになっててっていうあのソフトマックス論文で言えばソフトマックスで分母にスクエアルートのディメンジョンが来ているところねあれがどうしてなのかっていうのを解説しているセクションがあってふむふむってやって実際ねあのバリアンスも計算してほらこれだとバリアンスだいたい 1ぐらいに収まるでしょって言ってノートブックに戻ってくるんだけどノートブックではそのサイズの部分が違う値を使ってると思われる皆さんもきちんと見てくださいまあねあのそのファクターの違いだけなんで c ディープラーニングのあのデバッグって難しいんですよねやっぱりねあのモデル自身がアジャスタブルパラメーターが一生懸命ねパクター0.5違っても学習変数はその分コンペセントするように学習しちゃえばカバーできちゃうわけだからねいう難しいデバッグクリーンなデバッグっていうの難しいなぁっていうのは 8ね古いタイプのプログラマーは多分感じることだろうなと思いますが8これが見つけたバグっていう一点もう1個ねさまざまなことねあのソースコードを見たらあこいつはアンドレイのコードそのまま使ってるなっていうのがバレちゃうよっていう部分でビードファワードクラスっていうのがあってピードファワードレイヤーねその自分で実装してまあまあ単純なリニアレイヤーですけどもアンドレはスペルミスしてますフィードファワードの r が抜けてる抜けてたパイトーちはねあのフォワードはフォワードなんだけどもまあどうでもいいことですねこれはそれでもコンシステントにこうなっているからコードは当然動いているんだけどねそういうのがパイプしていると気づくねあのどうでもいいはいでこういうえっと必要なレイヤーを自前全部構成しといてそいつらを結合してこれが一番トップレベルのモデルのクラスが8倍グラム出発点は8直前の単語から次の単語っていうだけのシンプルなモデルから出発してるんでばそれバイグラムって言いますがバイグラムランゲージモデルから出発しててファイルあのクラスメーカーその引きずられているだけなんでこれが gpt ですgpt ですとあるいはトランスフォーマーのでコーダー部分ですと 8イニットとフォワードとあとインフェランスで使うジェネレイトっていうメソッドが追加されていますとで以上がコードのメインの部分もうこれで終わりとでえっと学習ループもあのねライトニングとか使わないで僕ライトニング普段使わないから使われるとあーめんどくせーと思うんだけど8アンドレ独自のお手製の学習ループをフォーループを作ってね回してますでえっとさっき言ったよねあのシードも彼のビデオと同じものでデータセットも同じものでデータスプリットもだから同じシードを使ってるんで同じで学習をさせたらロスを表示してるんだけどもこれ完璧に同じになるはずなのねで途中のステップね何回も学習してほらほら良くなっただんだん良くなったっていうふうにやっていく途中までスケールアップとかするまでは僕がパタパタってタイプで打ってた結果と完璧に一致してたんだけどもなんか後半の1個か2個ぐらいからあの下何桁がずれる例えばこれとかねえっとこれ最後のスケールアップした最後の学習ルーチンに相当しててえっとアンドレイのやつもあの同じ部分があるんだけどロスの値がねここに書いてあるんだけどノートに 1.4873にっていうふうにビデオではなってのが1.4834840 ちょっといいのねでこれがスケーリングの結果かなぁと思ったりもしたり思わなかったりもしたりあとだから微妙にシードも同じなんだけど微妙に違うようにえっとこのね推論実際のサンプルで生成させた8文章も途中までは完璧に一致してたんだけども最後の8トレーニングの1回2回分ぐらいまあ文章はそれっぽいいい感じ英語っぽい文字の並びとかになってるなっていうのは同じなんだけども出てくる文文字が違うねっていう風になってたりしましたねまああの明らかに僕はコードを変えているのでこのコードが実際の結果と違うあの彼のビデオと違うのはまあ当たり前なんだけどもそうじゃなくてもなんか途中からちょっと答えがずれてきたんでなんか僕の方で別なところで彼のソースコードと微妙に違うところとかが発生したのかもしれないですけども面白いんで皆さんも版書ね昔学校で先生が黒板に書いてるやつみんなノートに書くでしょうとそのノリでねアンドレ先生がビデオのスクリーン出してるやつを生徒は自分のターミナルでタイプするって言うのはいいよねなんかセミナーに行ってハンドアウトくれって言ってスライドが印刷された紙だけもらっても安心して何も考えずに参加した参加しただけで帰っちゃう人とかいるけどね何の足しにもならないよねなんかねなんかあれだね皮肉ってばっかりだねやめましょうはいっっていうのがえっとこれがアンドレのビデオの一番最後の結果なんですねキャラクターベースの8 gpt を実装してシェイクスピアのデータセットで学習してこういう感じに英語っぽい文字が出せるところまで来たとすごいすごいとさてこっからあの拡張していこう僕の音完璧にわかったを実際に確認するプロセスビデオの中で言ってたんだけども僕に知らなかったんだけど今までオープン ai がオークナイザーリリースしているとギットハブにオープン ai キックトークンクトークンアジャレは世界共通なんだね多分おじさんの共通っていうのかなピックトックから来てんだよねセンスをたがりますがえっとねあの gpt 2の時代で導入されたのかな使われたっていうのかなあのサブワードレベルのトークナイザーでbpe っていうアルゴリズムを使っているやつもう一個有名なのグーグルのセンテンスピースってのありますねが今も gpt が席巻しちゃってるんでオープン ai のトークナイザーを使うっていうのはマジョリティに従うっていう感じなのかな今回思いましたがこれあのアンドレイのビデオでちょこっと紹介されてたんでどんなもんかと思って使えるのかなと思って今のキャラクターバージョンの gpt をまずピックトークンバージョンに書き換えてみましたで書き換えたものの結果だけお見せしますがキャラクターベースだとあれねえっとボキャブラリーのサイズがアルファベット24の倍プラス記号ぐらいで収まる60いくつしかバリエーションがないんですがサブワードワードをもうちょっと細くしてるけれどもそういうトークナイザーだとボキャブラリーの数が下手違いになりますね具体的にはボキャブラリーが 5万バーサス60とかだからね10の3桁違う世界が違うんで8パラメータね実際に実行させる時のパラメータを調整しないと動かなかったメモリーエラーになっちゃったんで若干調整したよっていうのをここも書いてあるわけですけども4的にトークナイザーの設定はさっきのキャラクターベースからここをここに変えたようにとはいってもインポートしてねキックトークンで設定しといてエンコードとでコードっていうメソッドがキャラクターベースの方で作られてたんだけどもそれドロップインできるようにエイドティックトークンでエンコーダーとでコーダー実装しただけですもうこれだけでえっと名前をねモデルのネームをさっきのバイグラムからタイに gpt てあのわかりやすく書いただけですけど中身を同じものにして8学習してデータセットはシェイクスピアそのままを使ってますで学習させたらロスの値自体がもちろんねあのトークナイゼーションだからベクトルのロパティとかあの方形挙動とか全然違うから値は違ってくるんだけどもまあこれなんか挙動が怪しいね最初にどーんと4点いくつまで落ちているんだけども後半6までもを戻っちゃったりしてますがでこれ結果ね結果はあのシェイクスピアってえっと舞台劇ですから人物名セリフ人物名セリフっていうテキストが主なんですけどもその形式がきちんと出ているのでさっきのねキャラクターベースよりもずっとレベルが高いんではないかなという気がしますってことでまずトークナイザーをキャラクターベースからメジャーどころのティックトークンにアップグレードしたとでこれのメリットっていうか狙いの一つはねキャラクターへとティックトークンはワードベースのやつで当然 gpt で使われてたっていうことが意味する通りで言語マルチ言語に対応してるのボキャブラリーは全部カバーされてるはずだって調べてないですけどね当然そうじゃないと行くわけないと思ってもう暗黙のうちに思ってるけども言い換えれば日本語がそのまま8トークナイズできるとキャラクターベースでやろうと思ったらねアルファベットももちろんあのボキャブラリーを一時設定し直しはいいだけの話ですけどね8でもティックトークン使えば gpt と同じトークナイゼーションで日本語も普通に通るだろういう腹があったのでこれを使ったああああああその前にいろいろ実験だえどねちょうどニュースでね facebook がパラメータフリーの8オプティマイザーを平安しててっていうのを ak さんのツイートであこういうのあるんだと思ってこういう楽チンやなぁと思ってで特にアンドレーのあのこの学習ルーチンループってラーニングレートはもう目の子でめてやってるって感じだよねラーニングレートファインダーとか実装もちろんめんどくさいかったるいからそのほうでやりたくないよねっていうのはわかるんでだろうこれそのままさあこのこの自動でパラメーターチューニングしてくれる8オプティマイザー使ったらいいやと思って実験してみました論文はこれなんですけど論文やいいきちんと読んでませんなんかうまいことしてくれるんでしょでね facebook リサーチのギットハブのレポジトリにも行動があってもうピップにも登録されているのでピップ一発でインストールができるというのでピップ一発でインストールして使ってみましたオプティマイザーねで使い方によると 8ラーニングレートっていうのは1デフォルト1を与えとけばいいとこれはだからスケールファクターなんであの1を与えなさいとんでそれを10倍にしたかったら10にするし自分の1したかったら0.1にするとか論文ちゃんと読んでるんで僕がこれ買ってないけども1ってやっとけばデフォルトで合わせてくれるっていう話だと思いますでやってみましたしたら最終的な値5000ループエポック回してるんですけどエポックじゃないなステップも貼らしてるんですけども5.96 でさっきの8アダムを使ったループだといったん4.8まで落ちてるんだけども最終的に何グッと上がって6.2とかその前を5.9とか本当はねこの4.いくつになってほしかったんだけどこれ繰り返しやって多分それでもそこよりも下がらなかったんでもういいかと思って検証はここで中断しましたが少なくとも何らかの学習はしてるとラーニングレート1にしてループを回しただけででえっとその状態で文字を生成しろって言ったらまあどっちが優劣をつけられるかって言うとよくわかんないですけどもそれっぽい出力はさっきのと同じぐらいのそれっぽい出力は出ているとなのでd アダプテーションすげーかーっていうとよくわかんないという感じですねオプティマイザーに関してはえっとこれも最近なんかgoogle だっけランゲージモデルかえっとそれこそチャット gpt みたいなものにアルゴリズムを提案させて実装したら8いいのが出てきたみたいなのなんかちらっと twitter で見かけたような気がしますねそれも試してみたいというのもまだ試しててかそれ自体まだきちんとあの確認できてないんでそれも後でやってみたいかなとはい横道にそれましたがね tiktok に使った理由は日本語が通るようになるよねっていうことで日本語を通したい日本語データセットといえば全系 i フォーラムでも nlp 特集の時に何か使った青空文庫でダウンロードしてきたものがありますね僕も多分その時だと思うんだけど聞いたんねえっとユニコードのなんかごちゃごちゃっとしたチップスを投稿しましたけどもでその時に多分作ったデータセットはねえっとコンピュータに転がってたんでそれを読み込んでそれで学習させてみようと思いましたで青空文庫でメジャーどころっていうかね名前よく知ってて作品数が多い作家さんを数えた14人ぐらい手元のハードディスクの中にドキュメントあったんでそいつを全部連結させて 1個のテキストファイルだからもう作家問わずに青空文庫の小説の特テキストっていうのデータセットにしてタイニー gpt を学習させてみましたとイックトークンでトークナイズしたいパラメータはさっきのえっとシェイクスピアをティックトークンで使ったのと同じでデータセットはさっきのえっと青空文庫のデータセット使ったサイズはこれぐらいとえっとシェイクスピアよりも多分サイズはでかいんじゃないかなと思いますで学習させてみたと結構これはあの繰り返し繰り返し繰り返し結果学習させたあとの結構後半の方ですけどもサンプルね我が輩はの続きをかけ創跡は入ってるんだけどねソースに入ってだよね創跡一番最初に入ってるねドアがはいは夢に気が済ませなくなっているのですなんとかかんとかねもっと学習したらもっと良くなるかなと思ってちょっとループをさらにループするようなプログラムにして一晩とか回してたらもう結構頭打ちでえっと最終的に一番良かったのはこの辺でさっきの奴が2.28とかなってますけども2.18ぐらいまで下がったんですけどもその時のサンプルは我が輩はなんとかがんとかいいのか悪いのかわかんないでも日本明らかにね日本語っぽいそれっぽいフレーズは出るっていうことは確認できたという話ね

...more

View all episodes

By Kengo Ichiki

August 20, 2023

S38E03 Transformer を完璧に理解する！（後半）スクラッチから GPT を実装！

27 minutes

当日の市來の発表資料

...more

Share S38E03 Transformer を完璧に理解する！（後半）スクラッチから GPT を実装！

Sign up to save your podcasts

S38E03 Transformer を完璧に理解する！（後半）スクラッチから GPT を実装！

S38E03 Transformer を完璧に理解する！（後半）スクラッチから GPT を実装！