January 10, 2024

S43E03 最近の LLMs（その１）ポスト Transformer 時代の LLMs

27 minutes

こんにちわ！ AI ポッドキャスト、シーズン４３は２０２３年７月２９日に開催した ZOOMライブの模様です。
この日のテーマは「夏休みもＡＩだ！」です。

エピソード３は、パート２「最近の LLMs」その１、「ポスト Transformer 時代の LLMs」です。

当日の発表資料

このブラウザでは再生できません。
再生できない場合、ダウンロードは🎵こちら

ビデオ見れる人はこちらからご覧ください。

（以下は、OpenAI の Whisper を使って文字起こししたものを修正したものです。）

** 注：以下は未編集の草稿です **

はい、みなさん「こんばんわ！」です。
「こんにちわ！ AI FORUM」です。
今日の日付は 2023 年 7 月 29 日、７月の回になってます。

パート2に進みます
お話だけじゃやっぱりつまんないでしょうっていうことで
なんか手を動かすネタが欲しいなと思って
たんですけども、最近のニュースね
Twitterからこの1月の流れ
見てなんですけども、やっぱり
話題の中心は
ラーマ2ですねっていうね、メタね
さっきなんかメタ抜けてるじゃんって言ったメタですけども
メタは
すげー大雑把な言い方をすると
ジェレミー的なっていうかな
オープンソースでモデルは出しちゃえっていう
そういう意味ではマイノリティになってるんだけども
その有限実行がラーマ2でしたね
その辺の話を手を動かす話として今日は
実質何も生産的なことはできなかったんですが
取っ掛かりとして話したらいいかなと思いますが
その前段階ね
動向っていうかね
僕も最近の流れを
しばらく忙しい就職活動とかね、いろんな雑用で
忙しかったんで置いてなかった部分をちょっと冷静になって
流れを追い直していったところみたいな
のを整理し直して
この辺にフォーカスしたら面白いんかなっていうのを
まとめておきます
で、トランスフォーマーっていうのはやっぱりすごかったんだっていうのは
最近の、最近のっていうかな、ちょっと前までのね
オープンAIがなんで
GPTがなんでこんなに成功したのかっていうと
トランスフォーマーを愚直にスケールアップしたい
いけるところまでいっちまえっていう風にやったら
いっちゃったと、頭打ちする
のではなく
いったと、いった結果
我々が驚いた
いうことで、トランスフォーマーすげえっていう話ですけども
トランスフォーマー
以外の
すごいものっていうのは
ないのかって言って、そろそろなんか出てきそうな予感というかね
なんかあるなーっていうのは
トピックです
で、これちょっと前の話ですけども
これ実際にたどってたどってたどってっていうね
5月、5月が少し前っていう時代の流れの
なんかね
あーでもこれあれな、まあいいや
RWKVっていうのはこれ出始めた時の
Receptance Weighted Key Value
これ出始めた時っていうか
アナウンスされた時って
RNN的なものの復元だみたいな
ノリで言われて
これ僕論文は後で読もうと思ってまだ
要は紹介するだけで
後できちんと押さえて読みたいなと思ってますが
こういうモデルがあると
これが
ひとつね、トランスフォーマー
一本だった世の中に
ひとつ
別なアーキテクチャーのレベルで
出てきたものかなと
目についたものですけども
これは今月に入ってからですね
Flush Attention 2
Flush Attention 2っていう論文
あるらしいですね
これも
読めてないんですけども
いわゆる今までの
トランスフォーマーベースの
Large Language Modelを
よりも
よくなるんじゃないかみたいな
手法のひとつ
らしい
押さえておきたいなと
で
世の中のうわーっていうのから言うと今多分
僕的にはこれが今
盛り上がってるのかなっていう風に
ここ1、2週間
1週間?2週間?
あのー
Sensitive Network Red Net
みんななんかわーわー言ってますね
これもきちんと論文読んでから
僕もわーって言った方がいいってか
言わなきゃいけないんですけども
Twitter上ですげーすげーって言ってる人たちの文字を
これツイートの文字をコピペしてるだけですけども
それだけ見るとなんかね
恐ろしいことが書いてあるね
オーダーが1っていうことは
無限にっていうかサイズをコストゼロでガーッと
でかくできるっていう意味で
よくわからないね
何を言ってるのかね
後できちんと論文読もうと思う
ポイントですけどもね
やっぱりトランスフォーマーの
うまくいくところと問題点っていうのは
後出しじゃんけんじゃないですけども
分かってる状況で
みんながんばってて
いいぞっていうのが出てくれば当然
彼らの弱点が克服されたモデルですからね
パフォーマンスが上がるんですね
でこのRed Netは
オフィシャルにもう
GitHubにコードが出てるらしいですね
この辺とか興味ありますね
でも
ラージランゲージモデルは
アーキテクチャがあってもしょうがないです
ウェイトがないとしょうがないし
そのモデルが走る
マシンがないとしょうがないんでね
この辺はとりあえず論文はきっちり読みたいなと思ってますが
基本的に指加えて見てる
失業者は
貧乏人はそういう気分ですけどね
もう一個話題になってるのこれね
Pi Oneっていうかむしろタイトルの
Textbooks are all you needっていう
タイトルは遊び場になってますからね
なんか
すごいらしいね
このすごさは
データセット
Pi Oneっていうのがアーキテクチャなんですかね
この論文を読んでから説明しろって話だけども
多分二重構想なんでしょうね
データセットのクオリティっていうのは非常に大事ですよっていうことと
テキストブックみたいなものにフォーカスして
モデルを構築すれば
多分少ないデータセットでもより高度なことができるみたいな流れなのかな
カーパスインもわーわー言っていて
彼後ろで示す彼のペットプロジェクトとかでも
ファインチューニングっていうか
ドメインスペシフィックに限定して
その代わりデータセットとかそういうのをきっちり
するとパフォーマンスが
出るよっていうなんかコンセンサスっていうか流れっていうか認識があるみたいですね
多分この論文はその流れにもかかっているやつなんだろうなと
ふわっとした状況で思ってますが
なので僕の今の夏休みの課題ね
僕の夏休みの課題は
これどこに行けばいいんだ
まずこの論文を読むと
レッドネットの論文も読むと
RWKVも読むと
この4本をまずきちんと論文読もうと
もちろんラマ2の論文も読まなきゃいけないね
ラマ1の論文も読まないと
この論文はもうアテンション is all you need だから
C、CAPACYのNANO GPTをね
スクラッチからタイプしたんでそこはクリアできてるでしょうということで
夏休みの宿題課題はその辺だとあと今からやるところね
かなと思ってますけども
ラージランゲージモデルはね
ラージじゃないと面白くないところをなんとか
多分その辺でCAPACYは
彼とジェレミーってなんか
プラクティショナーっていうか
手を動かすレベルで考えるっていうか
そのセンスが強いっていうか
そこが好きなところですね僕とかもね
僕自身そこまで振り切れてないんだけども
そういうふうにやってお手本見せてもらったらなるほどと思って
僕とかも手をやっぱ動かさないと頭に入ってこないっていうのは
ありますからね
懐かしい人はこんばんは元気にやってる?
僕は見ての通り元気にやってますけども
暑いね
なんかあればいつでも連絡して
ということでコメントありがとうございます
とりあえず今のパートまでは来たここで戻るのページが欲しかった
リンクが欲しかったけどどこまで行ったかっていうと
詳細の方に行った方がいいな
今行ったところはパート2の
ポストトランスフォーマー時代のラージランゲージモデルとして
僕は今の時点で抑えときたいな
抑えとかなきゃいけないだろうなと思ってた
4つのモデルについて説明っていうかな
これは勉強しなきゃいけない課題だなと思ったっていうそういうことですね
ということで今からもうちょっとプラクティカルに楽しい
お楽しみの話に進もうということにします
まずはまずはこのラーマ2
ラーマ2ね
これはオープンソースじゃないじゃないかって文句言ってる人いたね
それは登録レジスターが必要なところで文句言ってたのかな
でも言ってみればあれですよねこれ
ステーブルディフュージョンがモデルを出した時みたいな
そういう状況ですよね
ラージランゲージモデルに対してだからこっから
これを取っ掛かりにして巨人の肩に乗っかって
次のジャンプホップステップジャンプどこまで行けるかっていう話なんですけどね
ラーマ2に関して最近の
ツイッター改めxから
しつこいねここ日付入れてないな振り返ります
メタがオープンソースにしたいよって言ってるよって言って
アナウンスが出ました出たのがいつだ
出たのがいつだこれこっちに1回行ってみようとしたら日付分かるね
ここまだ取り出すと一瞬ね
19日
ラーマ2アナウンスされました
これ論文も書いてある
これ論文もすぐに出ていて
そのインパクトの強さからですね
プリファードの岡野原さんもすぐにね
論文に目を通しても解説していただいてますね
ありがたい
でstfっていうものが
上乗せされてるアライメントの部分に関して
ファインチューニングしてるみたいね
ファインチューニングした後に
リンフォースメントラーニングwith ヒューマンフィードバックを課してるみたいに
書いてありましたね
アーキテクチャーも細かな変更ぐらいがあったのかな
その辺は後できちんと押さえておきたいなと思ってます
はい
ということで分かったと
手元にGPUが載ったパソコンはないんだけど
ウェイトはね使い道があると思って
ダウンロードしましたね
ダウンロードはこのリンクに行ったらダウンロードできますと
論文は論文のページがあってこれもローカルにダウンロードしてきましたと
ラーマ2オープンファウンデーションファインチューンドチャットモデルズ
これ後できちんと読もうと思ってます
ダウンロードは手順通りやればいいし
ネットでググればみんな今説明書いてあるんで難しくないと思いますが
Mac使ってる人は一つねトリッキーなのがあります
一応共有しとくと
ダウンロードスクリプトが
MD5ハッシュチェックしてきちんと本物かどうかを確認するのに
MD5サムのコマンドのチェック機能を使っている
その多分オプションが違ってるんだな
ハッシュを計算するだけのコードはもうネイティブに入っていて
MD5ってコマンドが入ってるんだけども
シェルスクリプトがMD5サム決め打ちになってるので
MD5サムのツールをあらかじめインストールしとかないと
コマンドがありませんと言ってダウンロードが
ダウンロードができるけどチェックが通らないのかな
ネットググったらブリューを使ってる人が多いみたいね
ブリューで入れればいいですよっていっぱい書いてあるんです
僕はブリュー使ってなくてMacポーツ使ってるんで
Macポーツも同じようにMD5 SHA1サムっていう
これはMD5サムのプロジェクトがないじゃん
Macポーツダメだなと思ってたんだけど
こいつを入れればいいですっていうことを分かったんで
Macポーツ使いの人はこっちでMD5 SHA1サム
インストールすればあとは問題なく
ダウンロードできます時間かかりますが
今のところっていうか多分これで終わりなんでしょうね
3種類のデータサイズでバニラバージョンと
チャットバージョンのモデル合わせて6種類
今公開されている一通り念のためにダウンロードしておきました
僕ローカルにMacでどう使うんだって話ですが
それ後ろでやりますが
これダウンロードしたらフォルダーがこれだけ自動的に切られますし
フォルダーの中身気になりますよね
サイズが一番小さいやつの中身とか例えばこうなってます
これチェックサムが多分入ってるな
これがモデルのウェイトファイルで7B
7BillionのモデルはPTH
Python PyTorchファイル1個ですけども
70だったら10個近くあったかな13は2個ぐらいかなっていう感じに
このファイル増えてます
パラムスはモデルのサイズモデルパラメーターが指定されたJSONファイルになってますね
7B 7Billionはこういうパラメーターがあって
論文まだちゃんと読んでないんであそうっていうぐらいしか分かんないんですけども
はいダウンロードできたと
でもね
ダウンロードできても今僕ローカルにGPUないし
コラボで走らせようと思ってたら
このウェイトファイルをね僕ね
配置の仕様がないんだよねっていうのは
Google Driveに空きがない
Google Driveに7Billionのファイルもうけないぐらいしかもう残ってないので
そこにお金をかけてないんで
もう詰まったと詰んじゃったと
なんであのこれLもう一個も大文字にしなきゃいけないのか
ok llama.cppね
これは救世主ですよとねGPUがない人のための
ライブラリーですけども
これは先月のAIフォーラムでもね
喋った通りですけども今僕失業者ですから
僕のMacの
カタリーナが動いてる
2012年のMacBook Proですからね
なかなかねきついんですよ
でもこのllama.cpp使うと
iOSが動くらしいっていう情報があってですね
これも最近のTwitter改めXから
ですけども
注意事項ね
llama.cppは
CPUで
もちろんGPUが乗っててもより
高速に動くんですけども最低限でもCPUでも
動くよと量子化されていて
次元を落としてね4ビットとかまで落とせるのかな
ということでメモリとかを制限したりとか
そういう技術なんですけども注意事項がいくつかあるんですけども
一番大きな注意事項が一つあってそれは
学習済モデルPyTorchで普通今時のモデルってのは
大体PyTorchで作られてますがPTHファイルね
がそのまま使えるわけではない
コンバートしないといけないでllama.cppで使うには
いわゆる僕詳しく知らないんだけど
ggml形式っていうものに
ウェイトファイルを変換あらかじめしておく必要があるこれは機械的にできるらしいので
でもそれをしておく必要があるその変換は
このプロジェクトにきちんとスクリプトが提供されているので
それを使えばいい
でそうかと思ったらこのツイートはね何を言ってるかっていうと
このHuginFaceのTheBlogさんっていうアカウント
ブロックさんがこの変換を
メタはさっき言ったようにPTHファイルを提供されてるんですね
PyTorchのウェイトファイルは生で提供されるのは当たり前だけども
それは生ではllama.cppでは使えない
でそれをllama.cppに
生まれるコンバーターで処理すれば
GDML形式にできてそれを使えば使えるんだけども
それをこのTheBlogさんがやったよって言って
多分HuginFaceに共有してるの
ライセンス的にいいんですかねっていうのは僕ライセンスは
消耗できちんと読み切ってないんでいつも
みんなの動向をこうやって伺ってるんだけどもAndreは
それができないのでレポジトリには入れてないんでみんな各自変換してねみたいなことを
下の方で言及しますが言ってましたが
これはいいのかな悪いのかなレーゾンなのかもしれないですけどね
ダウンロードしてきました僕HuginFaceからね
一番ちっちゃいやつダウンロードしてきました
Q4のMっていうやつ
4ビット量子化のミディアムサイズ
っていうモデルダウンロードしてきて
それに加わしてインストラクションを入れて
どう答えるかっていうデモをやってみました
このプロジェクト自体はGitHubから僕前にクローンしてるやつがあるんで
日進月歩でどんどん進んでるんでそこのディレクトリに行って
Gitで最新のソースをフェッチして
マージしておいてビルドをやり直してっていうことをした後
ですけどねラマ2のモデルが使えるような
メインファイルに今ダウンロードしてきた
7BillionChatのモデルラマ2のモデルを加わして
富士山の標高はいくつって問いかけた
したら今これログのコピペですけども
結果はこの古いMacでの結果なので
こいつでも動くということの証明ですけども
これがやりとりですね
インストラクション
Height of Mount Fuji located on Honshu Island in Japan is
Minna-na-ro metersだって書いてある
だけど測り方によっては3780とかいろいろ別な
高さも言われてるよでも普通みんなは
3776メートルって言うよっていうところまで含めて
してますこれラマ2の答えね
ここまでで結構これ早かった
全体で10秒ぐらいじゃなかったっけ
ロードトータルがこれミリセカンドだから
10秒ってことはない
この文章が全部出てきた印象は早いなと思いましたね
これはこれかな量子化の影響かなって思ったりするのは
後ろの方の話につながりますが結構早い
動いたと
でもなぁ
このゲージモデルの遊び方を多分僕まだきちんとし尽くしてないからなんだろうな
これだからどうしたって言うのに一番素朴にだからどうしたと思ってるんだけど
でもあのね記念ねラマ2が動いたと
一番ちっちゃいやつでねでかいやつで動かそうと思ったら大変なのかな
なのかな?

...more

View all episodes

By Kengo Ichiki

January 10, 2024

S43E03 最近の LLMs（その１）ポスト Transformer 時代の LLMs

27 minutes

当日の発表資料

...more

Share S43E03 最近の LLMs（その１）ポスト Transformer 時代の LLMs

Sign up to save your podcasts

S43E03 最近の LLMs（その１）ポスト Transformer 時代の LLMs

S43E03 最近の LLMs（その１）ポスト Transformer 時代の LLMs