ZENKEI AI ポッドキャスト、シーズン37は2023年1月25日に開催した ZOOMライブの模様です。
この日のテーマは「2023年のスタート」です。
エピソード4は、第1部「最近の話題から」の後半、音声合成ほか、です。
このブラウザでは再生できません。
再生できない場合、ダウンロードは🎵こちら
ビデオ見れる人はこちらからご覧ください。
(以下は、OpenAI の Whisper を使って文字起こししたものを修正したものです。)
** 注:以下は未編集の草稿です **
こんにちは。ZENKEI AI FORUM です。はい、皆さんこんばんは。25日で明けましておめでとうでもないですけどもね。今年一発目、2023年1月25日、ZENKEI AI FORUM 2023年のスタートです。
はい、で、最近の話題からネタをね。時間的にはいいやな、ちょうどいいくらいのペースやな。はい、その他の話題。ね、今日のAIフォーラムを準備するにあたって、なんか面白い話ないかなと思って、まとめてた時にヒットしたものです。えーと、テーマとしてね、音声合成。で、ちょっと僕も興味があるっていうんでピックアップしましたが、Ballyっていうね、Dallyのオイス版っていう位置づけですね。マイクロソフトから出ました。えーと、音声生成系モデル。えーとね、ウリモンク的にはですね、サンプル、自分の声のサンプル3秒与えれば、僕の声3秒与えれば、僕の喋りをテキスト、プロンプとペペって入れれば、ペって僕の声で、僕が喋ってるんじゃないのに、このBallyさんが喋ってくれる。っていう触れ込みの研究がマイクロソフトから出たらしい。ゼロショットスピッチシンセサイザー。でね、えーもう試せんの?僕の声で喋らせられんの?と思ってね、このBallyデモ、GitHub IOWNに行ってみたんですが、えーと、マイクロソフトさんが作ったサンプル音声データがいっぱいあるだけで、僕の声ですぐ試せるっていう状態でまだ公開されてるわけでもない。残念。でした。でもなんかね、これが、そうみんなね、もう盛り上がってんのね。で、これができたら何があんのっていうのを、この人のツイートとかね、これもうまさに誰でも考えることになる。誰にも考えるって言ったらかわいそうにね。あのー、なんだけども、スタートレックになるじゃんっていう話ね。このスタートレックのコンピューターはGPTなんだけども、Wisper、さっき言ったね、WisperさんはOpenAI開発してるやつで、これは何かっていうと、オーディオ音声ファイルを入力するとテキストに書き起こしてくれるわけね。で、ChatGPT、あるいはLanguageモデル一般は基本的にテキストプロンプトを入力にしてテキストを返すっていう、テキストトゥテキストなんですね。それがかったるいなって僕とかいつも思うんだけど、Wisper使えば音声からテキストにWisperがしてくれるんで、それをChatGPTなりに投げれば、テキストが音声で問い合わせたものに対するテキストはもう返ってくると。で、今回MicrosoftのVariがあるんで、テキストを音声にして、もちろんこれね、テキストトゥスピーチの今のモデルで単に喋らせれば、もうそれでコンピューターの声になるわけだけどね。できるじゃんと。音声、カンバセーション、会話システムがもうできるじゃんっていう話ですね。こういう応用技術のレベルになってきてて、それはそれで面白いんですが、個人のテイストだけど、僕とかは、まあ、それはそれでやってって感じになりつつあるんで、何だろうな、なんか住み分けなんでしょうけどね。まあ嬉しい悲鳴なんですけどね。音声ネタとしては、もう一個話題、これ僕基本的に情報Twitterで、情報が面白そう面白そうっていうのをピックアップするんですが、ESP-NET、僕全然技術フォローしてないんで、音声構成系の、これモデルっていうよりは、プログラムのPythonのプラットフォームみたいですね。いろんな手法が音声系に関してこのフレームワークで学習から、機能実装からできるフレームワークらしいですね。それを使ったらこんなすごい音質がいいものができたっていうツイートがあって見に行ったら、置かれてるファイルとか見れば、これぐらいの合成ができるんだっていうのがあったんだけども、この辺にちょっといろいろ調べてみた理由は何かっていうと、僕の中のモチベーションは何かっていうと、マイクロソフトのバリーが僕の声ですぐ使えなかったんで、僕の声で喋らせたいなと思って、どうやったら今の技術で喋らせられるんだろうなと思ったら、これに行き当たったと。後でちょっとやってみようかなと思ってます。学習、ファインチューニングなり音声構成のモデルの学習のデータセットは、もう簡単に作れますからね。例えば僕の声のコーパスっていうか、僕の声のデータセットを作ろうと思ったらどうするかっていうと、ウィスパーがあるんですよ、もう。だからさっき、さっき、さっきっていうかさっきじゃないんだな。さっきはYouTubeのビデオでこのインタビューの書き起こしをウィスパーでやりましたって言いました。そういうように僕の喋りをテキストにできるんで、ウィスパーの精度はもう遜色ないんで、音声とその文字っていうかな、喋りのテキストっていうのはデータセットして存在するんで、この後は、これのESPのレシピっていうのを、それをうまく仕立て上げて学習すればすぐできんじゃねえと思って、やっちゃおう、やっちゃおうと企画っていうか思ってるところです。まだできませんでした、時間がなかったっていうか、まだそこまで至らなかったっていうのが音声ネタです。その他、最近の話題からっていうんで、目を引いたものですね。ボディトラッキングっていうのは一つネタとしてありますね。トラッカーをつけるっていうのがね、この間ソニーのやつとかなんかいろいろ開発されて、VTuberとかそっちの辺の人たちはなんか関心を持って見てるのかな、そういう文脈において、あとカメラでね、シングルショットで骨格推定とかっていうのは多くやられてましたが、Wi-Fiね、今どこの場所にでも存在している情報源としての、本来の使い方ではないんだが、Wi-Fiのシグナルを使って、物の場所を認識するっていう研究が2つぐらい目に留まりましたね。骨格推定と、どっちも骨格推定なのかな、なんかWi-Fiかと思って、目の付けどころがっていうかね、考えてみればもうWi-Fiのシグナルってどこにでもありますからね、こういうやつね、フルボディトラッキングがWi-Fiのシグナルからできるの、という話ですね。あともう今は技術が日進月歩でね、特に去年から生成系、Generative AIのモデルが非常にクオリティの高いものがじゃんじゃん出てますが、その辺のサマリーっていうかな、レビューアーティクルみたいなのが出てるらしいんで、ちょっと読んどかなきゃいけないなと思ってリストアップして読む時間が取れなかった。読みたいと。で、オープンAIがわーわーと賑やかになってますが、ディープマインドさんも地道にね、なんかやってます。これもきちんと終えてないんで、あの後できちんと、きちんと抑えておくべき研究だと思うんで、ディープマインドね。マインクラフトを攻略したぜっていうのがどれくらいすごいのかって、僕ゲーマーじゃないんでよくわかんないんですが、すごいんだよっていう話をみんなしてますね。はい、抑えたい。あの、こう、強化学習系って僕弱いんだな。なんか面白いの?っていう気がするんだけど。ゲーマーじゃないからな。はい。っていうのが話題になったりとか、その他もいくつかありますが、ね。っていうんで、最近の話題からでね、話題にはこと書かない。物事の進歩はすごい、あの、花々しいんだが、いいと、話は十分だと。なんか楽しいことやろうと。楽しいこと。自分が楽しくないと続かないですからね。っていうことで、ちょっとなんかデモできるものないの?っていうことです。で、今日は皆さんにお見せするデモ2つ、デモってみました。それ今から喋ります。YouTubeをご覧の皆さん、こんばんは。はい、いきます。話は十分だ。手を動かそう。いきますね。NVIDIAが、NVIDIAもね、結構あれだよね、立ち位置としては、あの微妙っていうか、うまく立ち回らないといけないっていうのが常にあるだろうなっていうのは、想像に固くないですけどもね。彼らは、もちろんAI技術の中核に常に位置してるんだが、えーと、ボードが売れてなんぼですからね、彼らは、最終的には。だから、僕はビジネスセンスないんで、あれなんですけども、インスタントNGPっていうアプリっていうかね、EXEファイルっていうかね、アプリですね。を出したんですね。リリースして、NVIDIAのGPUが載ったPCで動かせるNERFね、のアプリケーションっていうのを出して、みんな、おーすげーすげーって喜んでました。NERF自身は、全系アイフォーラムでも、去年の3月に論文とかを紹介して、面白そうやねって言ってました。が、このね、インスタントNGPっていうNVIDIAのツールって、まずGUIアプリケーションなんですね。GUIアプリケーションで、つまり、GPUが載ったPC上でアプリケーションをビルドして、そのGPUにつながったディスプレイに画面を表示して、あれこれするっていうアプリケーション、ゲームみたいなもんですけどね。そういう環境って僕って手元にほぼないんですね。あの、GPUマシンは会社にあるハードウェアがあって、そこにブラウザ経由でJupyterでアクセスして、モデルを学習したりとか、ですからね。グラフィックボード、グラフィックボードとして使う環境っていうのは、ほぼなくてこれ使えないなと思っていて、もっと言えばツールをビルドするときにね、めんどくさいなっていうのがあって。二の足を踏んでたみんな楽しそうにNerfで写真からね、3次元のポイントクラウドじゃないけど、あのふわっとした3次元再構成が面白そうだなと思ってたんですが、最近のツイートでね、Instant NGPが、NGPがニューラルGPはなんだ?が、バイナリー、ツールガンのバイナリーが、ビルド済みのバイナリーがWindows環境においては提供され始めた。最近の話なのかな、僕が最近気がついただけなのかわからないですけど、らしいっていう話がありました。で実際に行きました。このサイトに行けば、NVIDIAのサイトに行けば、ここだな。NVIDIAのGitHubのInstant NGPのサイトに行けば、Windowsバイナリーリリースっていうのが、GPUのスペックに応じて3種類バイナリーが準備されてる。おぉ、いちいちビルドしなくても行けるじゃんと思って、で、僕手元に会社のラップトップWindowsのSurfaceBook2っていうのがあって、そいつギリギリNVIDIAの1060が載ってるんで、これ1060、10シリーズもね、サポートされてるんで、おぉ、じゃこれ動くじゃんと思って、インストールしてみようと思って、ちょっと試してみました。バイナリーダウンロードしてね、実行したら感動する。これね、Instant Nerfの画面ね、みんなYouTubeとかチュートリアルとかでみんながやってるやつ。で、サンプルのね、FOXのデータセット入れたら、きちんと出た。自分のこのラップトップでね。で、NVIDIAのGPU1、これ2つGPU載ってるけど、NVIDIAがきちんと認識して稼働してると、使える。やっぱりでも一番ちっちゃいやつだからね。なんで、今ここに見えてますが、ちょっと自分のサンプルでNerfやってみようっていうのをやってみました。これね、大変だったんだけども。で、ネタ、素材はね、何に使ったかっていうと、今わざわざ撮影しに行くとかっていうのもめんどくさいし、あとなんだ、僕、iPhoneの12以降とかね、きちんと即座ができるタイプのiPhoneだったら、Nerfは技術的に言うと、写真がたくさんあるだけでは不十分で、写真、カメラのポジションが入力データセットとして必要なんですね。で、なのでそこがトリッキーなんですが、iPhoneの12以降とか最近のiPhoneだと、そういうスラム的にトラッキングしてる情報が多分画像に埋め込まれてんのかな。なんかそれも取り出せるらしいので、そっちだと簡単にいけるのかな。ビデオで撮るのかな、なんか書いてあったけども。そうじゃない人は、素のビデオとか素のたくさんのカメラからNerfを使いたい場合は、ColMapっていう別なツールで、スティッチングみたいなことですね。フォトグラ的な画像からカメラの位置を推定して、カメラ位置をきちんとファイルにダンプするツールがあるんで、前準備としてそれでカメラ位置のデータを作っておいて、さっきのInstant NGPに投げるとNerfのビデオができるよっていう話になってると。で、ColMapっていうのは別途インストールが結構時間かかったのでできた。それをしてっていう話で、じゃあ画像がたくさんあればオブジェクトとかシーンに対してね、あればNerfできるんでって何にしようかなと思って、で、コロナの前、直前と言ってもいいかな、2019年の6月に仕事でヨーロッパに出張に行った時、フランスでね、早朝5時ぐらいだっけ、5時過ぎてたかな、6時前ぐらいから宿出てグルーっとフランスの観光地を一周ぐるっと回って、その間、あれはInsta360の1Xを持ってたんで、パノラマでね、360度でずっとバッテリーが持つ間中ずっと撮影したビデオがありますが、そいつをね、ネタにしようと。エッフェル塔とかどうだろうと思ったんだけど、ちょっともう時間がなかったんで、今日は、えーとね、ルーブルの手前にあるアーチを僕がくぐったそのシーンを、これパノラマ、リンクは後でこの発表素材を共有するので皆さんリンク見れますけども、これ奥、ルーブルね、今そっちに向かってるところなんだけど、あの、早朝のね、人がほとんどいない、爽やかなフランスの街を黙々と一人歩くビデオですけども、ここから、このアーチを撮影した画像を、スナップショットを切り出して、コルマップでポジショニングを推定したやつを、今からNERFしようっていう話です。これ結構、オリジナルのね、動画ファイルがどっかにあるはずなんだけど、それ分かんなかったんで、YouTubeからダウンロードしたファイルをベースにゴニゴニやったんで、結構解像度とか、あと使ってるPCのGPUはね、1060相当なんで、スペックが低いんで、もうなんか追い込む前に、もういいやと思って、今日今からお見せするNERFのビデオは、いろんな意味でやってみた程度の話ですけども、でもできたんで、これ、このアーチね、アノラマビデオですからね、結構いいよね。これ正面はあのね、ピラミッドね、ルーブルのね、ダビンチコードとか、皆さん見ましたか?はい、ここのね、この正面がルーブルで、これ僕が映ってますが、このアーチをね、あなた邪魔。アーチをNERFしてみようっていう話です。で、NERFしました。データセット作って、このツールに投げ込んで、カメラを、アーチの中をくぐるようにしてっていう風にやりました。それをお見せします。これね、どっから行くの?これあれか、再生。これね、いろいろと不満はあります。カメラのね、カメラパスを、このインスタントNERFが動いているPCの上で、マウスでうまく3次元空間中を調整しながらポインティングしてやっていかなきゃいけないんですが、スペックが低いので、反応が悪くて、マウスのクリックしたつもりなのにできないとか、ドラッグすると重たいとか、いろいろあって、思ったようにカメラがね、うまくポジショニングできなくて、多分、めり込んだりしてるところを、推進したりしてるんですね。なんで、要調整っていうかね、あとこのNERFの学習プロセスも多分不十分なんだな。あともっと言うと、素材として使った画像のカメラパラメーターはもうほぼ基地なんだけど、そのカメラパラメーターをColMapっていうツールにうまく渡す方向がわからなくて、それをきちんと渡せれば、もっと精度が高いポジショニングのデータになるはずなのになと思ったりとか、いろいろありますが、自分自身でみんなが作ってるようなNERFの動画が作れたので、とりあえずまずは嬉しいです。このまま、凱旋門もね、僕、くぐったので最終的に。今これ初っ端の方で、まずルーブルに行って、セーヌ川渡って、セーヌ川沿いにちょっと歩いてからエッフェル塔に行って、その後、凱旋門に行って、で、サンジェリゼをずっと行って、コンコルド広場に抜けて終わりみたいなね。一通り回ったよね。あの、岡田一世の大パリの、のに、熱は出てなかったですけどもね。そのビデオから作ってみました。もうちょっと、でもなぁ、スペックの高いGPUマシンが欲しいなぁ。はい、っていうのがデモその1でした。インスタントNERFやっと試せたよ、っていう話ね。皆さんも試してみたらいいと思います。あの、GPU付きのNVIDIAのGPUが載ったWindows PCがあれば、ビルドすることなく、インスタントNERFのアプリケーションが使えると。前処理は、前処理のツールが動く環境は独自ビルドしなきゃいけないですけどね。はい、その2。でもね、ワンショットトーキングフェイスっていうものがTwitterを見てたら流れてきました。なんかね、見て、おーすげーと思ったんね。このツイートのビデオね。これも再生される?これは、えーと、解説すると、入力としては、今の場合、このTom Hanks由来のCGの画像1枚と、えーと、Tom Hanks越えの、だったね、オーディオファイル。画像1枚とオーディオファイルが入力で、出力は、今右端に出てる、喋ってる動画ファイル。これがアウトプット。っていうように、あ、ここに書いてあるね。音声と画像を入れたら、話す顔の動画を生成する、そういうAIモデル。それの、えーと、HackingFaceSpacesのデモサイトがあります。やりました、やってみた、すごいっていうツイートがあって、おー、これすげーじゃん、これやってみたいと思って、そういや、似たようなことやったよね、俺もって言って、えーと、振り返ると、去年の6月にね、なんか、自分の顔をネタにね、やった話があります。これ見に行くと、顔の3D再構成っていう、ちょっとあのスタイルが違うんだけども、えーと、やってるのはやってみようって言って、これもHackingFaceの、これね。これが結果ね、左側の僕が動いてるのも結果で、入力はこのシチュエーションでは何かって、僕の顔自身と、このJacky Chanの喋ってる動画ファイルが入力画像で、Jacky Chanを僕の顔の喋りに変えるっていうモデルがこのモデル。似たようなやつで、えーと、このDAGYANっていうのがあって、それもサイトがあったんで試してみたっていうのがこれね。これはこのお姉さんの、変顔してるお姉さんのビデオファイルで、僕のさっきの顔写真を与えたら、この右から2番目のやつがDAGYANの結果、一番右側がさっきのJacky Chanのデモがあったモデルの結果。こういうのはやってたと。ね。なんで、動画ファイルと顔写真を入れると、その動画の顔写真を入れ替えてくれるっていうモデルは今までやってたけども、今回のこのTom Hanksのこのビデオね。One Shot Talking Faceモデルっていうのは、音声ファイルと顔写真から顔のトラッキング動画を作ってくれる。っていうんで、よっしゃよっしゃ。自分の喋りの動画を作ってみよう。ね。同じ顔写真と。音声ファイルは今回は、僕も今Podcastいくらでも音声ファイル情報あるんで、でも動画は撮ってないからね。あの、これね。今日は2022年4月27日。ゴールデンウィークももうすぐそこまで来てるっていう感じの全系やるコーナー。月の最後の水曜日です。はい。はい、これね。あの、全系AIフォーラムの喋りのイントロダクションのところの音声と、僕の顔で、今僕がこう、これ本物の僕が喋ってますが、こんな感じで僕がさあ喋れるのかどうかっていうのをやってみようっていう話ね。ハギンフェイスのスペーシーズのページがあるんで行ってみて、このファイルをアップロードしたんだけど、何回やってもうまくいかないよね。だから、ああ、ダメかと思ったんだけど、GitHubサイトに行ったらコラボのページがあって、そこに同じようにね、画像と音声ファイル入れたらできました。これ結果、見てみましょう。今日は2022年4月27日。ゴールデンウィークももうすぐそこまで来てるっていう感じの全系AIフォーラム、月の最後の水曜日です。なんか、なんでこう、あごしゃくった感じで喋ってるの?っていう感じですけども、とりあえずできてるね。うん。なので、音声だけあるんで、僕のポッドキャストで僕の顔を見ないと寂しいっていう人は、このモデルに加わせればいくらでも僕が喋ってる動画、顔のファイルが生成できますっていう状況になりました。なので、皆さんも是非、作りたい方は、えーと、そう、なんでハギンフェイスのスペーシズがうまくいかないのかよくわかんないんですが、コラボ使った時に、わかった、あのエラーが出たんですけども、エラーが1個出て、そのエラーの理由は音声ファイルがステレオだとダメだってエラーが出ましたね。なので、物に変換することができる、というのが、なので、物に変換したオーディオファイルをハギンフェイスに入れれば、もしかしたら動くのかもしれない。あと、サンプルレートは、ワーニングがコラボの方出たんだけど、サンプルレートはでも変えなくても、今のファイルが生成されたので、そっちはワーニングだけだと思うんで、もしかしたらステレオにしてたのがいけないのかもしれない。けど、コラボの方がおすすめですね。早い。ハギンフェイスは3分くらい時間かかるっていう予測が出ていて、3分待たなきゃいけないけども、3分待った後にエラーとか出るパターンだったんだけど、コラボだったら1分以内にも結果が出てたような気がするので、ほんとやってみたい人は、GitHubサイトからコラボ開いて、動画ファイルと音声ファイルと画像ファイルを自分でアップロードしてやってみてください。やって何が嬉しいのかよくわかんないけどね。できます。自分をネタにすると誰にも怒られないんでね。いいんだけど。で、音声合成の話もね、有名人とかアーティストとかでみんなじゃんじゃんやっちゃって、それがまずいって言って公開を消したモデルとか何か数日前とかも話題になってましたね。なんで、ご利用はきちんと皆さん正しく使いましょう。その辺がね、やっぱり自分ネタでやる気楽さっていうのはありますよね。はい。っていうのが、パート1、最近の話題からでした。自分のネタっていう意味ではですね、僕さっき今年の目標の中のね、新規課題の1、問いレコードを作る話あって、これ、今ピアノで練習してるのってスタンダードとかがあるね。だから作曲者は別にいて、クレジットの問題とかめんどくさくなるじゃない?って言うんで、そしたら自分が作曲した音源をカッティングして売る?ブースなりで売る場合においてもね、あのー、海賊版みたいななんか文句言われるの嫌だから、つったら自分の曲をカッティングして売れば誰も文句言われないよね。そこね、なんかね、その辺はね。はい。