HELLO! AI ポッドキャスト

S42E03 強化学習(1)なぜ今、強化学習なのか


Listen Later



こんにちわ! AI ポッドキャスト、シーズン42は2023年6月24日に開催した ZOOMライブの模様です。
この日のテーマは「最近の話題から」です。

エピソード3は、今日の話題のパート1「強化学習」その1、「なぜ今、強化学習なのか」です。


  • 当日の市來の発表資料




このブラウザでは再生できません。
再生できない場合、ダウンロードは🎵こちら




















ビデオ見れる人はこちらからご覧ください。




(以下は、OpenAI の Whisper を使って文字起こししたものを修正したものです。)

** 注:以下は未編集の草稿です **

こんにちわ! AI FORUM です!
はい、みなさんこんばんは 、です。6月ね、もう後半、今日土曜ですけども。で、前回アナウンスしたように、今日は月末の土曜日開催、1回目ですね。6月の24日になってます。AI FORUM 今日開催です。

はいえーっとね今日のAIネタでお話として皆さんに情報共有っていうか、なんか紹介したかったちょっとねいつもの通りで準備が結局ね間に合わなかったんで、ちょっとやってみたっていうことを共有する程度に終わっちゃうんですけども、評価学習、をテーマにちょっと喋ります 7時半、ね評価学習、別に新しい 話じゃないじゃんもう、ね、何年も5年前からこのこんな教科書とかもあるじゃんみたいな 話かもしれませんが、僕個人的にはね これあの AIフォーラムでも、あの何回か言ってたと思いますがなんか知らないけどね、評価学習っていまいちねワクワクしなかったんですね僕の中からねモチベーションというかね、まあそれはそれで理由が、あるんだと思うんですけども 変なバイアスってか間違った認識っていうかね、間違ってるのかどうかまだよくわかってないですけども今まで要するに避けてきてた 限られたリソース時間とか自分の情熱みたいなねどこに投資するっていうのは、戦略ですからねそういう意味で 教科学習っていうのは目の前にあったんだけどもまあ、そこに投資してなかったんだけど最近ちょっとそれじゃいかん 真剣に思っ、えっとそこをちょっと正当化っていうか説明しとこうとねえっと、5月の AIフォーラムで僕は今やりたいことって言ってさっき言ったように今、自由な状態で仕事を選べるって言った時に自分は何をしたいのかなあっていうふうに考えた時に、AIの基礎研究みたいな そこに関わる、バリバリの研究者じゃないんで僕はコンピューターサイエンスのだから、それはできないんだけどそこに関わる何かをやりたいなっていうのがその時言ったことですね、わかりやすく言うと、っていうねAGIね、今の上のディベートで議論になってたような、アーティフィシャルジェネラルインテリジェンス、人間とうまくアラインするのコントロールできるのとかそういうリスクがありますねみたいな話があります、そういうリスクがあるんだったらなんかきちんと、科学的にねサイエンティフィックにね克服すべきだ、そういうところに関われれば嬉しいなぁと、でえっと、それとね、教科学習の関連なんだけども僕は考え直したっていうポイントなんだけども、今もう疑いもなくですねチャットGPT、が成功を収めてるわけですよ、てかみんなはびっくりしたわけですよ、ランゲージモデルなんてのはもうね古臭い、カビの生えたNLPの教科書の一番最初に出てくるような、ねモデルなんだけどもそれが、AGIかもしれないね、スパークオブなんだっけ、AGIだったっけ、思わせるものはあって、知性とはそもそも何ですかもしかしたらこのレベルで知性的なものは実はあるんじゃない、僕たちの認識っていうのはなんかむしろ違ってたんじゃないみたいなことまで思わせるほどの、インパクトがある成功を収めたわけですね、オープンAIさんがね、オープンAIさんがどれぐらいオープンにしてるかっていうのは議論の余地があると思うんですけども、少なくとも公開している範囲内の中でチャットGPTの、鍵となる技術的なエッセンスはどこにあるのったらその一つは、RLHF、これねなんかね、なんかもうちょっとファンシーなね、あのネーミングをここにこそつけてほしいよね、バートとかさ、ラーマーとかさそういうところに一生懸命エネルギーを注いでるんだからここもなんか、わかりやすいし、喋りやすい語呂合わせをもうちょっとひねってほしかったんですけど、Reinforcement Learning from Human Feedback、人間が介入して、モデルをね、うまくアラインする方法のテクニックとして、Reinforcement Learningを、使って、GPTを、アラインしたと、人間と会話ができるっていう風にうまく寄せてきたってことね、このReinforcement Learning、RLっていうのが、日本語でいうところの教科学習、だから、この成功を目の前にした時に、教科学習はちょっとねいまいちピンとこないんだなんて言ってる場合じゃないっていうのが僕の認識ね、当たり前のことだよって言うんですけどね、俺が間違ってたと、教科学習をきちんと勉強するべきだった、思ってると、で、そういう意味でAGIあるいは教科学習をきちんと学ぼうと思った時に、どこに注目するべきか、って考えた場合は、もう僕の中ではDeepMindを置いて他にはないという風に思っている、えっとね、DeepMind、最初にDeepMindっていうものの存在を認識したのは皆さんいつでしたかっていうと、多分ほとんどの人が、Googleに買収っていうかGoogleの参加に入った時ですよね、それはいつかって2015年ググったんですねWikipedia見ましたね、2015年、多分大きなニュースになってテク系のニュースになると思いますが、その時初めてねデミサハサミスその人、インタビューとかにいっぱい答えてましたよね、で、印象にやっぱり僕残ってるんですね印象に残ってるんで、どういう印象だったかっていうと、DeepMindは2015年の時点ね2015年つったら、多分TensorFlowがリリースされたのが同じ年なのかなだから前後関係どうだったかも覚えてませんが、まだ一般大衆がディープラーニングっていうものに対して認知が、深まってない段階だと思いますけどその時点で、すでに、AGI彼らはAGIを目指して最初からやってますよっていうのは明確に打ち出してましたよね、で、そうあのまだあれイメージネットでおー画像分類ができるすげーっていう、僕みたいなおこちゃまな感覚の時にすでにAGIを目指してるんですよって言っていて、Google参加に入るにあたってGoogleの方にも、倫理的な考えとかあと安全性に関するいろんなリマークを、たくさん要求して飲んでもらったみたいなこと言ってたしそういう責任があるみたいなことを、インタビューで明確に歌ってた記憶がありますその時のビデオとかは確認してないんで、僕うろうこいで記憶で言ってますけども、でもなんでこれ意識されたかっていうと、ごくごく最近去年とかかな、皆さんご承知のオープンAIのサムアルトマンが、いろんなところで最近いろいろ喋ってますよねインタビューとかでね、マイクロソフトの資金を得ていろいろと大きく打ち出すことができるようになったみたいな文脈って、マイクロソフトは、AGIっていうAIのリスクみたいなのをきちんと理解してくれててだからマイクロソフトに手を組んだんだとか、責任とかそういうことを歌ってて真面目若いのに真面目若いのにっていうのはあれだよね、だってあれだよね、あのまあまあ嫌な話、そうだからすげーって思ったんだけどもそれってここ数年の話でしょうと、この段階でAGIのそういう問題意識を言うっていうのは、比較の対象としてデミスハサミストーンならんだ時にっていう話だけども今言うのは簡単だと、で2015年って言ったら10年とは言わないが、8年前よね8年前の段階で、ああいうふうにきちんと主張してたっていうのは僕はすごいなと思っているというのがすごく頭の中で印象にあるんですね、なのでえーっとね、評価学習、AGI、学ぼうと思った時のリファレンスはディープマインドだろうと、ディープマインドね地道にね、オープンAIは、トランスフォーマー一点突破型でやってうまく当てて今ここに来てるっていう感じだけどもディープマインドは、言ってみれば地道にずっとAGIの方向を攻めていて、評価学習もないんでねあたりのゲームが全部できるようになりましたみたいなのがさ、初期の頃の話ありましたよね、で最近もえーっとね、アルファデブっていうのが最近あの、リリースされましたね、なんで地道に着実に途中アルファGOとかありましたけども、やってるとちょっと振り返ってみようと、でディープマインドのねブログサイトを見に行って、これが最新のやつでしたね、ここらへんが多分、僕が今一番ドンと、学んでおきたいなと思ってるところですけども、ここの絵にねμ0とかα0と、リンフォースメントラインと書いてありますけども、オプティマイゼーション、オプティマイゼーションコンピューターシステム、っていうのは何かっていうと、アルファデブっていうものが、プレスリリースありましたが、コンピューター、アルゴリズム、の、すごい、基本的なコアに入ってる、ソート、並べ替えですね、ソートのアルゴリズムを、最適化したと、そんな基本的なものを、今この21世紀のこの段階でさらに、最適化する余地があったのかっていうことと、最適化実際にしたとプラクティカルに、でそこに使われた技術が、いわゆる、リンフォースメントラーニング、だったの、で、この話自体はなんかファミリアだなっていうのはその通りで、その前にね、アルファテンサーっていうニュースがありました、アルファテンサーって何ですかって、ソートっていうのはあのね並べ替えですけども、アルファテンサーがターゲットにしたのは、行列かける行列っていう、操作ねこれはこれも、今ディープラーニングのシチュエーションでは、テンサーフローっていうライブラリをグーグルが発表して、なんでテンサーフローって名前つけたかっていうと、ペンソルを扱うんですね、ディープラーニングの中はね、行列かける行列みたいな演算が、もうほぼ全て100パー計算の中に入ってるんで、そこをちょっとでも効率化できたら、すべてが恩恵を受けるみたいなところなので、そこに対して、リンフォースメントラーニングで、最適化を試みたら、ストラッセンっていう、古典的なニュメリカルレシピにも載ってるような、最適化の方法、あれ自体が多分驚きなんだけどね僕的にはね、を超えるようなあれ超えたんだっけ、8ものを発見したよっていうアナウンス、リリースありましたよね、でこれは知ってたその後の発展として、アルファデブとそういうのがありましたねっていうのを、遡ってみたら見てたと、ここまでは知ってたんだけども、僕ね見落としてたんだけど、ミューゼロっていうもの、これ勉強しなきゃいけないなと思って、これすっぽり抜けてましたね、2022年プレスリリースとか上がってたみたいですが、じゃあ2020年ミューゼロマスタリング、GO!チェスショーグ、これは8アルファゼロっていうのが話題になりました、これ時系列としてはその前の、ここから行かなきゃいけないね、アルファ5この前だな、イーセドルを打ち負かした、えっとエポックメイキングな出来事がありました、その後アルファ5ゼロっていうのは何をやったかっていうと、人間の対戦データを使わないで、コンピューターだけで、GO!を強くして、同じぐらいのレベル、あるいはもっと強くなるレベル達成したよっていうこと、だからゼロってついてるんですけどね、でアルファ5ゼロっていうのが2017年に出て、GO!以後だけに限らずボードゲーム的なものに対して、人間の対戦データとかを使わないで、AIが人間を超えるようなスキルを獲得する、フレームワークアルファゼロっていうのは、出来たよっていうアナウンスが、これの翌年出てこれは話題になりましたね、もう人間抜きで人間を超えちゃうんじゃ、なんかある意味敗北感を味わった、ここまでは記憶にあるんだけども、それがさらに一般化された、μゼロっていうのが出てたらしい、僕これ言い続けてる、これちょっと論文から読まなきゃいけないなと思ってます、でもうルールもいらなくしたってことね、で人間の対戦データがいらなくなったのはもう、アルファゼロでそうなんだけども、それでもねコマの動きとかっていうルールは、多分与えなきゃいけない、μゼロっていうのはそういうのもなしで、without rulesって書いてあるね、であたりのゲームとかも対応できる、まだ僕論文読んでないんで何とも言えないけども、この流れの発展形として、αテンサーαデブっていうのが出て、サイエンティフィックにaiを応用して、もう一段階agiを目指す方向性の一つの軸として、こういうのがあるよっていう話があると、で僕自身この辺は全然持ってなかった、でこのねα5、α5あ待ってその前に、そうαテンサーについてはかつて取り上げましたねっていうのね、えっと2022年の10月にね、全経営iポーラム10月にディープマインドのブログを読んでみたって、ここにのサイトはαテンサーこのサイトですね、2022年の10月出たときすぐに読んだのね、触れてますここでさっき言った、ニューメリカルレシピがどうのこうのって話しました、で教科学習の文脈においては、ディープマインドさんはα5の前の段階で、そもそもはdqnっていうのを開発してるね、でその後R2D2モデルの名前なんかあれだったよねっていうのがあって、その辺をμ0っていうのはその辺をさらに集約して、α0のラインとうまくガッチャンコした感じなのかなって、今印象的に思ってますが、だから2023年の今僕がじゃあ教科学習をきちんと学ぼうと思った時に、どことかかりにするかなと思ったら、自分のモチベーションとかも考えてたね、α0だろうと、α0はもう発表されたのこの時期で5年だね、5年近く経ってるんで、ググれば動く行動どっかもう転がってるんだろうっていう、甘い考えのもとにですね、そこをとっかかりにしてちょっと理解をね、情報ハイウェイで最初にもう最先端のところまで行っちゃおうという、企みでちょっと活動して1週間ぐらいね、今日の発表に間に合うところまで間に合ってないんですけども、間に合うところまで発表しようって話です。
...more
View all episodesView all episodes
Download on the App Store

HELLO! AI ポッドキャストBy Kengo Ichiki