ZENKEI AI ポッドキャスト、シーズン38は2023年2月22日に開催した ZOOMライブの模様です。
この日のテーマは「ChatGPT 話題ですね」です。
エピソード5は、パート2「音声合成」のはなしです。
このブラウザでは再生できません。
再生できない場合、ダウンロードは🎵こちら
ビデオ見れる人はこちらからご覧ください。
(以下は、OpenAI の Whisper を使って文字起こししたものを修正したものです。)
** 注:以下は未編集の草稿です **
こんにちは、ZENKEI AI FORUM です。
はい、皆さんこんばんはです。ZENKEI AI FORUM、2023年の2月22日、2月の回になります。
とか言いこたこたやってたら 時間がこんなになっちゃったのでパート2ね 今日僕が皆さんに共有したいのはもちろんパート1のね GPTやっとトランスフォームは完璧にわかったぜっていうのをアピールしたかったのがあるんですけどもお楽しみはこれからですはい進めます えーと ちゃん森さん来ていただいてますありがとうございます一番最後にあのもしかしたらお呼びするかもしれないんで はいはいありがとう聞いてる大丈夫眠くないいや大丈夫ですけど難しいなぁと思って聞いてます はいあの結構時間行っちゃったけどもパート2に行きますせっかく準備したんではい はいえーっとねネタは音声合成って書きましたが1月のねフォーラムの時に音ネタちょっと触れましたっていうかね一番気になったのは このバリーっていうやつなんですけどもmicrosoft がね 3秒喋ったらそのデータがあればあなたの声をいくらでも作り出せるそういう ダリーがいくらでも画像を出すようにねあなたの声でいくらでも音声喋ってくれるよっていうモデルを 論文を出したとをギットハブサイトもあると大もう使えるのかと思って言ったら 僕の声を使うっていう風なレベルのでもはできないなんでそれが一番やりたいのにということで google ってどんな他技術的に他にどういうチョイスが乗って esp ネットっていうのに行き当たったいう話が 1月にしました ねそうがっかりしたけど esp ネットバージョン2っていうのにが今世間にあるものらしいとんでえっとその時にいろいろ情報を調べてみたっていう話がありました ねでそれを 8もうちょっともうちょっとっていうかな情報を調べるだけじゃつまんないんでやりたいのは僕の声を 使って音声合成してみたいというのが僕の願いね世間は a 自分の好きな声優さんの声で自分が喋らせたいことをいくらでも喋らせたいっていうのはみんなが熱中してるかさんたいんですけど 僕は生あのアレなリアルアバターで踊るとか自分の声なんかしくんどっ特別な思考なんですけどねはい でえっと何を使ったらできるのかっていうの情報収集の意味でねあの調べたんですけどもどうも esp ネットっていうのは使えるツールとしてあるらしい この人のサイトを見るといろいろね書いてあってモデルも esp ネットにいろんなものが含まれるけどもーってんでn パカさんっていうね僕とかググってたら結構ヒットする ai 系その他技術情報系で結構ねノートかな サイトをいっぱいいっぱいね山のように情報を上げている人がいや esp ネットも紹介してるよっていうふうにここに書いてあったんでおおと思って 見に行きましたと音声合成a esp ネットっていうのはん 様々な音声絡みの ai 絡みのタスクを使いやすくしてくれる まとめるツール群みたいな位置付けみたいですね僕が今今認識している範囲においてはで主な応用っていうのは2種類あって方向が行くか変えるかみたいな話で 音声を認識するっていう asr オートマティックシグナルレコーディションサウンドレコーディション とテキストを音声にするっていうテキスト2スピーチ テキスト音声合成の2通りのソリューションがあってまぁそれぞれに 重複することもあればあのいろんな個別のツール使わなきゃいけないのを使いやすくするラッパーみたいな位置付けなのかなって認識してます でえっと今興味があるのはこっちの ts ttsエキスト2スピーチ えっとこれまではテキスト を解釈するでその解釈をもとに要するに発音記号みたいなものにするとテキストっていう文字 から発音記号みたいなものにして えっとそれを音にするっていうそういうステップを踏むでa パコトロンっていうのがどこにそうとすんだ音響モデルに相当してボコーダー部分が 8ギャーンでいろいろ作られているでそういうものをいろいろチョイスできるのが esp ネットを使えばいろんなものがチョイスできて こういう機能をa 統一的に実現できるそういうものらしい なるほどとじゃあ僕のうさよマイクロソフトさえっと 音声でたね前座の時に喋ったように僕今は podcast にしゃべりまくってでしょで ねぇこう伏線を今回収してるんですけどねでさっ最初に言ったように ウィスパーっていうオープン ai の書き起こしモデルで 僕が喋った内容をテキストにするっていうのはほぼ苦もなくできるような状況になっ100パー正確ではないけどもほぼ満足できるぐらいの 8ドラフトになるぐらいのものはテキストになっているなので 音声データ学習データとしての音声データっていうの僕は山ほどあるしそれをテキスト化するっていうラベルもウィスパーを使えばできるんで それで僕の音声構成モデルを作りたいっていうからがあるんですね なるほどといろいろツールはあるんだなぁっていうのはわかってでもこの最初に示したこの もう見上げさんのですね一押しはこういう普通のタコトロンとギャンを使った音声合成じゃなくて vitsコンディショナルバリエーショナルオートエンコーダーウィグアドバスエリア ラーニング4 n 2 n テキストスピッチを使ったら すごい綺麗な音が再現できたっていうふうに書いてたんですねこういうアーキテクチャー でドキュメントにはこれね n パカさんの 書いたのが2020年ですけどもそこには vits はなかったんですが8それもその初 vits は2021年に出た話ですけども 今や esp 2で esp ネット2で8 vitsのファインチューニング できるらしいでその人はやったらすげー音質がいいって言って感動している よしこれをやってみたいと調べてみた 今回やってみた情報はねあの 結構ヒットするんですがai とかもっと言えば 8リナックス的なってかコンピューターにあんまり詳しくない人たちが頑張ってやってるっていう情報がたくさんあって 逆に混乱というかあの情報が探し近かったですけどもとりあえずできたんであのそれのまとめっていう意味でもあの 役に立つかなと思って一通りまとめますesp ネット2で自分のデータセットを準備して 8モデルを作ってテキストから喋らせるっていうことを実現しようと思ったら以下の4ステップを減る必要がありますと 4ステップのうち1個は esp ネット2をチンと使えるじゃん状況にインストールするっていうと結構 結構大変だったんですけどもその後さっき言ったあの音声データを自分の音声データを esp ネットで使える形にきちんと準備するっていう必要があるで準備が整ったら学習をする人はこれ時間かかる で学習済みのモデルを使ってじゃあ合成しましょうっていうそういうパターンだっ 8一個ずつ見ていきましょうと時間も結構進んでるんで飛ばしつついきますがインストールはね参考資料を書いてこの資料は後で共有しますが一番役に立ったのは コラボノートブックしたっていうのは何 どういう形であり実際に動くかつてはなのかわかんないけども1回は動いたa ものなのでこれをベースに 僕が使ってる gpu マシンにa部分2が動いてますから ねリモートログインしてもいいんだけどもジュピターのターミナルから必要なプログラムをインストールして必要なコマンドいただいてということをやり ましたで一通りねあの入れるべきものを入れれば動きました であのきちんと esp ネットがユーティリティーツールだけあってですねチェックインストールとかですね うまくできているかの確認とかはコマンドラインツールなんであの使いにくい人は使いにくいんだろうけど逆に使いやすい人にとっては使いやすい んでチェックするとこういうふうに必要なツール 入ってるかなーっていうのはきちんと確認できますきちんと確認できます でインストールはうまくできました でじゃあデータセット準備僕言ったようにね僕の声を この学習に使えるデータセットにどういうふうにフォーマットをまとめればいいんだろうっていうのはわかんなかったんですけども 実は実はってかね聞いたんねウィスパーを使ってさっき言ったよね自分の喋り声だけあればウィスパーが書き起こしして くれるのでそれをラベル情報として esp ネットがラベルのデータセットして認識できるような形に形成して やってみたらできたよっていう聞いたの投稿がありましたでこれを参考に 書き直しましたえっとこの人は多分 パンダスとかを使ってて僕はあんまりパンダスを使うタイプの人じゃないので安心そこをそういうことしなくてもできるんで でウィスパーは使い慣れてたんでえっと僕にとってはよりシンプルな方法でラベル付けまで8やるノートブックを書きました えっと今ここでいちいちはやりませんが8ね前景 i フォーラムの1月の8内容当然もうやったのでビデオがありますねビデオから音声を抜き出した音声ファイルが あるのででそれの文字起こしももうすでにあのもう仕込みとして完了してるんですねそれをデータにして 8ラベルデータセット作りました各音節っていうかセンテンスごとにえっとウィスパーのえっと 解釈に沿ってえっと音声音源を 分割して喋ってる内容を8作ると最終生成物は 8各音節あのセンテンスに対応するウェイブファイルと各ウェイブファイルの中で僕が発生している 文字ねこれは全部ウィスパーさんがやってくれてるやつをこの形に形成するだけなので 機械的にプログラム的にできるここまでしたら準備 ok っていうことになりましたで esp ネットで vits 別っていうのがなっていうモデルの8学習済み データをダウンロードしておいてそれをベースにファインチューニングするっていう手順を踏みます ねそこの手順はまあ聞いたとかいろんな情報に書いてある通りのことをえっと間違いなく順番にやっていけばよ でこれは esp ネットの8ドキュメントですけどもなんかねすごい 複雑なのねあのesp ネット多分歴史が長いのと いろいろあれもこれもやろうっていうふうにカバー領域が広いせいなんだろうと思うけども 初心者で単純に tts のえっとカスタムモデルを作りたいだけみたいな時には どこをフォーカスすればいいのかわかり結構時間食いましたねでもまあ僕今回こうあのまとめたやつを皆さん見れば少しは 分かりやすいかもステップ123ステージ12345までが準備で ステージ6が学習でステージ7が8 合成インフェランスいう形になっています で準備準備準備を ターミナルでねガンガンガンとディレクトリーにをきちんと整備するとかそういうことをしてくれるシェル スクリプトの塊なんですね esp ネットはやっていきますと でえっともう端折ります時間もなくなっちゃったんですでえっとなんだっけどこまで行った学習 ここまでが準備で学習はステップ6ねステップ6でどこのランっていうシェルスクリプトにあステージを指定すると そのステージに対応する処理をしてくれるんだけどもステージ6でパラメータこういうやつを実行してっていうとしてくれると ただしえっとesp のネットのドキュメントのパラメータのままだとメモリが足んないって僕が使っ ているマシンは2080 ti なんで結構タイトね今今次第ん なのでバッジサイズを削る必要があって削ったんですねでこれこれ昨日の作業のログなんですけども トータル15時間学習にかかりましたでまぁ今日の 昼昼間に終わってそれからどれぐらいのクオリティの音声ができたかなって検証とかしてたんですけども学習15時間かかりました 15時間かけた美声をですね今から聞いてもらおうと思います えーっとね聞くのもあの再生するあそうそうそう学習は全系アイフォーラムの 先月の1月の内容を文字起こししたやつと合わせて学習させたなので その読みテキストを嫁って言ったらそれチートだからねあの別なテキストを持ってきて喋らせて評価 するべきだろうと思って8 ai フォーラムじゃなくて音楽とするリポートキャスティング僕が喋ってるんだけど そこの書き起こしねえっとこれも前回の先週金曜日に出したエピソード7の終わりの方のセクションのこれもウィスパーで書き下している文章が あるんでこのテキストを使って音声合成した機械が合成した 兼語ボットモデルと これはオリジナルは僕のポッドキャストなんで本物の僕の喋りも対象 対象データとしてあるんで比較できるじゃんっていうんで比較してみます比較してみました えっとねーここはねちょうどねー amazon プライムで落ちザロックを見たぜっていう部分を僕が喋っている部分ですえっと正解から正解から行くか正解から行きます 聞こえるかなああのあれだそうだね僕 amazon プライムに入ってるんでアマゾンプライムにある映画とかドラマとかみ こんな感じの喋りが正解ねでこれをウィスパーで書き起こしたテキストファイルがありますとそのテキストを 8パイソンのあの文字列に設定して合成しろって言ってウェイブファイルを作り出した 作り出しましたでこれをじゃあ今から行ってみましょうねこれが 15時間かけて学習した8ビッツの僕の声でファインチューニングした結果ですああのバナーちょっとネットでは大なってたやつござるねなんだろうと思ったら 両チシーズさロックっていうままっていう話があって連続アニメでもうああね ちょっと長かったんで途中まで切りましたけども微妙だけど聞き取れるところもあるし 声は僕の声になってますよねねえそうっていうことでまああの パラメーターチューニングとかする自由時間がなかったんでもう高校これまでなんですけどもどうやと でねこれによって何が可能になったかというとテキストを与えるだけで 疲れ知らずでどんだけでも喋るケンゴさんが作られたわけですよコンピューターが僕が苦労しなくてはねこれでやった僕は楽に楽 できるとポッドキャストはですねっていう話ではないんですけどねこれねなんか今の ai のいろんな話っていうのは 人間が楽したいっていうなんかそういう基金なモチベーションの話が多いなぁっていうのはなんか最近特に感じることなんだけど これは僕がひねくれてるからですかねっていうていうねっていうのは メインのリザルトですけどもみんなにお見せしたかったのはこれじゃなくて今からです38分おまけ ウィチューバーケンゴさんお披露目します何をやるかは想像できる人ができると思いますか これも1月ね1月に8ワンショットトーキングフェイスっていうモデルがある これすげーっていうのを紹介しました覚えてる人は覚えてるこれねあのその時の結果これなんですけども やってることは8画像ファイルと顔の画像ファイル1枚と音声ファイルを準備すれば動画喋ってる顔の動画ファイルを ai が作ってくれるって言うやつねでこれ僕の顔で作ったやつを1回流します はい皆さんこんばんは今日は2022年4月27ゴールデンウィークももうすぐそこまで来ているという感じの前景 ai フォーラム 月の最後の水曜ですサイズがねこのサイズなんだけども今ズームミーティングで僕のワイプで入っ てるここに埋めるんだったら十分だよねで さっきね僕がの声で喋るビッツの pts モデルがありますだからテキストさえ入れれば僕の喋り声っていう音声データは入るわけね ね僕の顔写真があればこのモデルに突っ込めば僕の喋ってるのが テキストと画像ファイルだけでできるわけよよしとね同じ市さんだとつまんないんで10年以上前の市記ケンゴさんに登場してもらいますペター同一人物なんですけどねそんなにね20年とか前じゃないからね まあいいんですけどもここが本題ではないねこの若い一期さんに8さっきの ボザロの話をしている動画を作ってみよう作りました はい v チューバー県5さんね入力データは テキストファイルとテキストデータとこの顔写真だけこっから 音声ファイルはビッツが作ってそれをがっちゃんこした動画ファイル今からお見せするものが このワンショットをトーキングフェイスモデルねさあお見せしますどうぞ あの花がちょっとネットで話題になってたやつをざるでなんだろうと思ったら4 tc ブロックっていうままっていう話があって連続アニメでもう終わってて amazon プライムにはもう全部入ってはね言いましたけどもこれ結構良かったねよかったし俺はユーチューバーとして負けてるなぁと思いましたね 一人ちゃんにいたかいほどというか収益ができてなんてそもそもサブスク数は出してないから話にならないけどいい意味 負けですけどいや面白かったねあれねあれみたいなどやなんかちょっと生ってるねな待ってるね なんかあの東北が入ってるかなよくわかんないけどねちなみにワンショットトーキングフェイスの能力はあの オリジナルの音声もあるんでそっちで食わしてみたら結構なんだろうね滑舌の問題かな 顔の動きがはっきりしてるこれちょっとリファレンスとしてねもう1回ね見てもらいましょうこれ正しい音声ねあの あれだそうあのね僕アマゾンプライム入ってるんでアマゾンプライムにあるね映画とかドラマとか見れるんですよ ちょっとネットで話題になってたやつボザロなんだろうと思ったらこっちじゃろ っていう漫画っていう話があって連続アニメでもう終わってて amazon prime も前は入ったんでいましたけども結構良かったねねえこれ同様 結構や今後半の奴は僕の喋りでこっちのずっといいけども 前の方も喋りはなんか東北なまり入っているけども楽にビデオを作れるっていうのは同じだろう ねで準備してたんだけどもちょうどね皆さんも twitter 界隈にいれば昨日とか眺めたんじゃないかなと思いますが なんか暖炉のを後ろに背負いながらイケメンが に減らしのに減らに減らしながらなんか喋ってるビデオが上がってましたよね あれを見てみんなあれ全部が合成合成なんだ ai が合成したんだって言って もう何でもプレゼン簡単にできるやんって話題にちょこっとなってました がどうもいや僕あの深追いしてないんですけどもそういうのはあの圧倉ぐらいで いつもするしてるんですがこういうタイムライアン twitter ねあのやりとりがあってあれは何かあのなんだコマーシャル的なものでやらせじゃない けどもみたいな話をっていう話があってね あそうってでなんかお金もしげっかかるらしいよっていう 話があってでも皆さん今日僕が今見せたようにね お金もかけないでまぁ gpu 必要ですけども今みたいなビデオがね できるよできるよっていうことであの やってみたら応援面白い面白い面白い のかねよくわかんないけどねて言うて言う話でした いうかねあの3秒で僕の声を合成してくれるバリーっていうのは 早く出してくんないかな僕これ楽しみにしてるんだけどな っていうっていうのが今日皆さんに紹介したかった話でした 今日の内容あチャットさんは あはいはいはいちゃんもりさんはねあの忙しくはいって いうことで今日のコンテンツはこんな感じで でしたあのあれだねなんか若い僕を出したら急に youtube のコメント欄がに行っている気がするんですが言えないは若さが大事 今日の内容ねあのトランスフォーマー完璧に理解したっていうのと あのビデオはね顔写真1枚と あのあとテキストねあのしゃべりのデータ学習データがどれくらい 必要なのかっていうのはこれこれもうちょっと詰めて僕 のねーなんかもうちょっとしゃべりもうちょっとクリアーに喋って ほしいなぁと思いましたけど結構でも 目つぶってたら僕の僕の声間違いないよねそれはねまあでも 僕が喋んないという意味がないと思うんでじゃあ何のためにあったって技術でも ですけどねっていう感じでしたはいえーっと これこういうのをねー僕は僕が出たがりでこれをやってるって 皆さん思ってるかもしれませんがそんな言い訳する必要ないのかもしれないけど これ他人の声とか他人の顔でできないですからねやったらいろいろ 問題ですから仕方なく自分をネタにやってるんですけどもダンスの時もね でも楽しいですけどねあの何 いやーあのそうそうこれコンピューター上で見かけ僕みたいな ものが僕が喋ったのを素材にしたテキストを 喋ったりするっていうのをなんかすごい面白い シチュエーションだなぁと思ってそれは何重にも面白いシチュエーションだ なぁと思っているのがあってそれはあのリアルアバターで自分のアバターを3次元 で踊らせるっていうのとも繋がりがあるあの面白さというか 複雑さっていうかなんだけども特に今 面白さっていうかの次元が1個は1段階上がった僕の中で 上がったなぁと思うのはチャット gpt の話がありますねと着 gpt のなどの側面かっていうとチューリングテストっていうかね知性がっていうか意識がみたいにあるんです かないんですかみたいな問いかけもちろんそれのまあ定義も込みなんで明確に いわゆる今までの科学的な話として白黒が簡単につく問題じゃないからここ までこういろいろ難しいことになってるんだろうけども ある見方を素朴な見方をすれば今のチャットgpt って結構 8感情を持ってるって言う言えるじゃんというものは多分あってだからみんな こんなにわーわー言っていてでも ai ちょっと詳しい人だったらわかる ようにねこれ僕どっかつぶやいたんだなえっと わかるようにチャット gpt あるいは今回の gpt 僕完璧に わかったっていういわゆるねランゲージモデルね ランゲージモデルが言葉を例えば英語を英語 英語だけじゃなくて日本語でもいいんだけど 紡ぎ出してるんだけどシェイクスピアとか青空文庫とかを学んだ 奴がねこれとか見ればいいけども言葉の単語の意味を 例えばね8何だろうね秋な っていう秋っていう言葉を僕たちが春夏秋冬の秋って理解してくれているものをこの gpt が理解しているわけはないんだけどもとかね田舎って言った時に僕たちが把握している田舎っていうのを理解してるわけ じゃないんだけどもでも 辻褄が合うようなそごがないような音を今のチャット gpt とかがやってるのは結局そういうことなんじゃないかと でもそこにそれを見た人間が感情があるとか意識があるとかっていうふうに思っ ありするっていうシェイションね一方で僕たちは僕たち自我があって意識を持っていると思ってるんだが 僕たちもバイオロジカルなシステムの上に乗っかって いろんなシグナル入力出力っていうものの現れを認識認知してそこに意識とかを感じている だから主体がどこにあるんですかっていう話に結局なるのかなと思ってその主体っていうのは何だろうっていうのはわかん ないなっていうのどっかつぶやどっかでついた僕のツイッターつぶやいて結論はないんだけども あのねーシステムの そう機能とまあ いや多分今だからある見方をするとというか後じえ的に 知性とか意識とかっていうものはそういうシステムのプロパティではない部分でのプロパティですよっていうのが 確立してしたとしててかそれが真実だとしたらレトロスペクティブに てか未来から見た時に今っていうのはもう実は人工知能っていうのは発現してるしてたんですよみたいなことにねなってたりするんだろうね僕たちの認識が 至ってないだけでみたいなことは当然起こり得ますよねっていう言いたい放題言っててもしょうがないねa それと僕が今 v チューバー堅母さんを作ったことどうつながるんだっていう話だけどね 多分僕は多分でもあれね自分の分身をコンピューターに作らせるっていうのは多分に 生きる死ぬっていうかね死を意識しているような話ですよねきっとねやっててもなんかそうなんだなぁと思い ながらやってるしやってたりするけどね 取り留めなくなってきましたごめんなさいはい82月もねこれで終わりで3月はえっと次回は次回は今日の終わりに3月はね31日まであるので29日が最終水曜日 になりますある人にとっては年度を収めありますね僕はあんまりカレンダーに関係ない人生を送ってるんであれですけども はいということで今日の2月末の前傾 ai フォーラムは僕的には面白かったんだけど皆さんに楽しんでいただけたかどうかちょっと自信が ないかなはいっていう感じになりましたご意見あのご感想および8なんかねあのこういう話を聞きたいこういう話はつまんないとかあれば じゃんじゃんくださいあの対応できるかできないか僕の アレにかかってますけどいうことでえっと今日終わりにしたいと思います結構ね 準備直前までバタバタしてたんで時間うまくここまであのねたどり着けたんで嬉しいですけどもはいじゃあ終わりにします ありがとうございました youtube をご覧の皆さんもコメントありがとうございましたa ってことで終わりにします おやすみなさい