August 27, 2023

S38E05 音声合成

36 minutes

ZENKEI AI ポッドキャスト、シーズン３８は２０２３年２月２２日に開催した ZOOMライブの模様です。
この日のテーマは「ChatGPT 話題ですね」です。

エピソード５は、パート２「音声合成」のはなしです。

当日の市來の発表資料

このブラウザでは再生できません。
再生できない場合、ダウンロードは🎵こちら

ビデオ見れる人はこちらからご覧ください。

（以下は、OpenAI の Whisper を使って文字起こししたものを修正したものです。）

** 注：以下は未編集の草稿です **

こんにちは、ZENKEI AI FORUM です。
はい、皆さんこんばんはです。ZENKEI AI FORUM、2023年の2月22日、2月の回になります。

とか言いこたこたやってたら時間がこんなになっちゃったのでパート2ね今日僕が皆さんに共有したいのはもちろんパート1のね GPTやっとトランスフォームは完璧にわかったぜっていうのをアピールしたかったのがあるんですけどもお楽しみはこれからですはい進めますえーとちゃん森さん来ていただいてますありがとうございます一番最後にあのもしかしたらお呼びするかもしれないんではいはいありがとう聞いてる大丈夫眠くないいや大丈夫ですけど難しいなぁと思って聞いてますはいあの結構時間行っちゃったけどもパート2に行きますせっかく準備したんではいはいえーっとねネタは音声合成って書きましたが1月のねフォーラムの時に音ネタちょっと触れましたっていうかね一番気になったのはこのバリーっていうやつなんですけどもmicrosoft がね 3秒喋ったらそのデータがあればあなたの声をいくらでも作り出せるそういうダリーがいくらでも画像を出すようにねあなたの声でいくらでも音声喋ってくれるよっていうモデルを論文を出したとをギットハブサイトもあると大もう使えるのかと思って言ったら僕の声を使うっていう風なレベルのでもはできないなんでそれが一番やりたいのにということで google ってどんな他技術的に他にどういうチョイスが乗って esp ネットっていうのに行き当たったいう話が 1月にしましたねそうがっかりしたけど esp ネットバージョン2っていうのにが今世間にあるものらしいとんでえっとその時にいろいろ情報を調べてみたっていう話がありましたねでそれを 8もうちょっともうちょっとっていうかな情報を調べるだけじゃつまんないんでやりたいのは僕の声を使って音声合成してみたいというのが僕の願いね世間は a 自分の好きな声優さんの声で自分が喋らせたいことをいくらでも喋らせたいっていうのはみんなが熱中してるかさんたいんですけど僕は生あのアレなリアルアバターで踊るとか自分の声なんかしくんどっ特別な思考なんですけどねはいでえっと何を使ったらできるのかっていうの情報収集の意味でねあの調べたんですけどもどうも esp ネットっていうのは使えるツールとしてあるらしいこの人のサイトを見るといろいろね書いてあってモデルも esp ネットにいろんなものが含まれるけどもーってんでn パカさんっていうね僕とかググってたら結構ヒットする ai 系その他技術情報系で結構ねノートかなサイトをいっぱいいっぱいね山のように情報を上げている人がいや esp ネットも紹介してるよっていうふうにここに書いてあったんでおおと思って見に行きましたと音声合成a esp ネットっていうのはん様々な音声絡みの ai 絡みのタスクを使いやすくしてくれるまとめるツール群みたいな位置付けみたいですね僕が今今認識している範囲においてはで主な応用っていうのは2種類あって方向が行くか変えるかみたいな話で音声を認識するっていう asr オートマティックシグナルレコーディションサウンドレコーディションとテキストを音声にするっていうテキスト2スピーチテキスト音声合成の2通りのソリューションがあってまぁそれぞれに重複することもあればあのいろんな個別のツール使わなきゃいけないのを使いやすくするラッパーみたいな位置付けなのかなって認識してますでえっと今興味があるのはこっちの ts ttsエキスト2スピーチえっとこれまではテキストを解釈するでその解釈をもとに要するに発音記号みたいなものにするとテキストっていう文字から発音記号みたいなものにしてえっとそれを音にするっていうそういうステップを踏むでa パコトロンっていうのがどこにそうとすんだ音響モデルに相当してボコーダー部分が 8ギャーンでいろいろ作られているでそういうものをいろいろチョイスできるのが esp ネットを使えばいろんなものがチョイスできてこういう機能をa 統一的に実現できるそういうものらしいなるほどとじゃあ僕のうさよマイクロソフトさえっと音声でたね前座の時に喋ったように僕今は podcast にしゃべりまくってでしょでねぇこう伏線を今回収してるんですけどねでさっ最初に言ったようにウィスパーっていうオープン ai の書き起こしモデルで僕が喋った内容をテキストにするっていうのはほぼ苦もなくできるような状況になっ100パー正確ではないけどもほぼ満足できるぐらいの 8ドラフトになるぐらいのものはテキストになっているなので音声データ学習データとしての音声データっていうの僕は山ほどあるしそれをテキスト化するっていうラベルもウィスパーを使えばできるんでそれで僕の音声構成モデルを作りたいっていうからがあるんですねなるほどといろいろツールはあるんだなぁっていうのはわかってでもこの最初に示したこのもう見上げさんのですね一押しはこういう普通のタコトロンとギャンを使った音声合成じゃなくて vitsコンディショナルバリエーショナルオートエンコーダーウィグアドバスエリアラーニング4 n 2 n テキストスピッチを使ったらすごい綺麗な音が再現できたっていうふうに書いてたんですねこういうアーキテクチャーでドキュメントにはこれね n パカさんの書いたのが2020年ですけどもそこには vits はなかったんですが8それもその初 vits は2021年に出た話ですけども今や esp 2で esp ネット2で8 vitsのファインチューニングできるらしいでその人はやったらすげー音質がいいって言って感動しているよしこれをやってみたいと調べてみた今回やってみた情報はねあの結構ヒットするんですがai とかもっと言えば 8リナックス的なってかコンピューターにあんまり詳しくない人たちが頑張ってやってるっていう情報がたくさんあって逆に混乱というかあの情報が探し近かったですけどもとりあえずできたんであのそれのまとめっていう意味でもあの役に立つかなと思って一通りまとめますesp ネット2で自分のデータセットを準備して 8モデルを作ってテキストから喋らせるっていうことを実現しようと思ったら以下の4ステップを減る必要がありますと 4ステップのうち1個は esp ネット2をチンと使えるじゃん状況にインストールするっていうと結構結構大変だったんですけどもその後さっき言ったあの音声データを自分の音声データを esp ネットで使える形にきちんと準備するっていう必要があるで準備が整ったら学習をする人はこれ時間かかるで学習済みのモデルを使ってじゃあ合成しましょうっていうそういうパターンだっ 8一個ずつ見ていきましょうと時間も結構進んでるんで飛ばしつついきますがインストールはね参考資料を書いてこの資料は後で共有しますが一番役に立ったのはコラボノートブックしたっていうのは何どういう形であり実際に動くかつてはなのかわかんないけども1回は動いたa ものなのでこれをベースに僕が使ってる gpu マシンにa部分2が動いてますからねリモートログインしてもいいんだけどもジュピターのターミナルから必要なプログラムをインストールして必要なコマンドいただいてということをやりましたで一通りねあの入れるべきものを入れれば動きましたであのきちんと esp ネットがユーティリティーツールだけあってですねチェックインストールとかですねうまくできているかの確認とかはコマンドラインツールなんであの使いにくい人は使いにくいんだろうけど逆に使いやすい人にとっては使いやすいんでチェックするとこういうふうに必要なツール入ってるかなーっていうのはきちんと確認できますきちんと確認できますでインストールはうまくできましたでじゃあデータセット準備僕言ったようにね僕の声をこの学習に使えるデータセットにどういうふうにフォーマットをまとめればいいんだろうっていうのはわかんなかったんですけども実は実はってかね聞いたんねウィスパーを使ってさっき言ったよね自分の喋り声だけあればウィスパーが書き起こししてくれるのでそれをラベル情報として esp ネットがラベルのデータセットして認識できるような形に形成してやってみたらできたよっていう聞いたの投稿がありましたでこれを参考に書き直しましたえっとこの人は多分パンダスとかを使ってて僕はあんまりパンダスを使うタイプの人じゃないので安心そこをそういうことしなくてもできるんででウィスパーは使い慣れてたんでえっと僕にとってはよりシンプルな方法でラベル付けまで8やるノートブックを書きましたえっと今ここでいちいちはやりませんが8ね前景 i フォーラムの1月の8内容当然もうやったのでビデオがありますねビデオから音声を抜き出した音声ファイルがあるのででそれの文字起こしももうすでにあのもう仕込みとして完了してるんですねそれをデータにして 8ラベルデータセット作りました各音節っていうかセンテンスごとにえっとウィスパーのえっと解釈に沿ってえっと音声音源を分割して喋ってる内容を8作ると最終生成物は 8各音節あのセンテンスに対応するウェイブファイルと各ウェイブファイルの中で僕が発生している文字ねこれは全部ウィスパーさんがやってくれてるやつをこの形に形成するだけなので機械的にプログラム的にできるここまでしたら準備 ok っていうことになりましたで esp ネットで vits 別っていうのがなっていうモデルの8学習済みデータをダウンロードしておいてそれをベースにファインチューニングするっていう手順を踏みますねそこの手順はまあ聞いたとかいろんな情報に書いてある通りのことをえっと間違いなく順番にやっていけばよでこれは esp ネットの8ドキュメントですけどもなんかねすごい複雑なのねあのesp ネット多分歴史が長いのといろいろあれもこれもやろうっていうふうにカバー領域が広いせいなんだろうと思うけども初心者で単純に tts のえっとカスタムモデルを作りたいだけみたいな時にはどこをフォーカスすればいいのかわかり結構時間食いましたねでもまあ僕今回こうあのまとめたやつを皆さん見れば少しは分かりやすいかもステップ123ステージ12345までが準備でステージ6が学習でステージ7が8 合成インフェランスいう形になっていますで準備準備準備をターミナルでねガンガンガンとディレクトリーにをきちんと整備するとかそういうことをしてくれるシェルスクリプトの塊なんですね esp ネットはやっていきますとでえっともう端折ります時間もなくなっちゃったんですでえっとなんだっけどこまで行った学習ここまでが準備で学習はステップ6ねステップ6でどこのランっていうシェルスクリプトにあステージを指定するとそのステージに対応する処理をしてくれるんだけどもステージ6でパラメータこういうやつを実行してっていうとしてくれるとただしえっとesp のネットのドキュメントのパラメータのままだとメモリが足んないって僕が使っているマシンは2080 ti なんで結構タイトね今今次第んなのでバッジサイズを削る必要があって削ったんですねでこれこれ昨日の作業のログなんですけどもトータル15時間学習にかかりましたでまぁ今日の昼昼間に終わってそれからどれぐらいのクオリティの音声ができたかなって検証とかしてたんですけども学習15時間かかりました 15時間かけた美声をですね今から聞いてもらおうと思いますえーっとね聞くのもあの再生するあそうそうそう学習は全系アイフォーラムの先月の1月の内容を文字起こししたやつと合わせて学習させたなのでその読みテキストを嫁って言ったらそれチートだからねあの別なテキストを持ってきて喋らせて評価するべきだろうと思って8 ai フォーラムじゃなくて音楽とするリポートキャスティング僕が喋ってるんだけどそこの書き起こしねえっとこれも前回の先週金曜日に出したエピソード7の終わりの方のセクションのこれもウィスパーで書き下している文章があるんでこのテキストを使って音声合成した機械が合成した兼語ボットモデルとこれはオリジナルは僕のポッドキャストなんで本物の僕の喋りも対象対象データとしてあるんで比較できるじゃんっていうんで比較してみます比較してみましたえっとねーここはねちょうどねー amazon プライムで落ちザロックを見たぜっていう部分を僕が喋っている部分ですえっと正解から正解から行くか正解から行きます聞こえるかなああのあれだそうだね僕 amazon プライムに入ってるんでアマゾンプライムにある映画とかドラマとかみこんな感じの喋りが正解ねでこれをウィスパーで書き起こしたテキストファイルがありますとそのテキストを 8パイソンのあの文字列に設定して合成しろって言ってウェイブファイルを作り出した作り出しましたでこれをじゃあ今から行ってみましょうねこれが 15時間かけて学習した8ビッツの僕の声でファインチューニングした結果ですああのバナーちょっとネットでは大なってたやつござるねなんだろうと思ったら両チシーズさロックっていうままっていう話があって連続アニメでもうああねちょっと長かったんで途中まで切りましたけども微妙だけど聞き取れるところもあるし声は僕の声になってますよねねえそうっていうことでまああのパラメーターチューニングとかする自由時間がなかったんでもう高校これまでなんですけどもどうやとでねこれによって何が可能になったかというとテキストを与えるだけで疲れ知らずでどんだけでも喋るケンゴさんが作られたわけですよコンピューターが僕が苦労しなくてはねこれでやった僕は楽に楽できるとポッドキャストはですねっていう話ではないんですけどねこれねなんか今の ai のいろんな話っていうのは人間が楽したいっていうなんかそういう基金なモチベーションの話が多いなぁっていうのはなんか最近特に感じることなんだけどこれは僕がひねくれてるからですかねっていうていうねっていうのはメインのリザルトですけどもみんなにお見せしたかったのはこれじゃなくて今からです38分おまけウィチューバーケンゴさんお披露目します何をやるかは想像できる人ができると思いますかこれも1月ね1月に8ワンショットトーキングフェイスっていうモデルがあるこれすげーっていうのを紹介しました覚えてる人は覚えてるこれねあのその時の結果これなんですけどもやってることは8画像ファイルと顔の画像ファイル1枚と音声ファイルを準備すれば動画喋ってる顔の動画ファイルを ai が作ってくれるって言うやつねでこれ僕の顔で作ったやつを1回流しますはい皆さんこんばんは今日は2022年4月27ゴールデンウィークももうすぐそこまで来ているという感じの前景 ai フォーラム月の最後の水曜ですサイズがねこのサイズなんだけども今ズームミーティングで僕のワイプで入ってるここに埋めるんだったら十分だよねでさっきね僕がの声で喋るビッツの pts モデルがありますだからテキストさえ入れれば僕の喋り声っていう音声データは入るわけねね僕の顔写真があればこのモデルに突っ込めば僕の喋ってるのがテキストと画像ファイルだけでできるわけよよしとね同じ市さんだとつまんないんで10年以上前の市記ケンゴさんに登場してもらいますペター同一人物なんですけどねそんなにね20年とか前じゃないからねまあいいんですけどもここが本題ではないねこの若い一期さんに8さっきのボザロの話をしている動画を作ってみよう作りましたはい v チューバー県5さんね入力データはテキストファイルとテキストデータとこの顔写真だけこっから音声ファイルはビッツが作ってそれをがっちゃんこした動画ファイル今からお見せするものがこのワンショットをトーキングフェイスモデルねさあお見せしますどうぞあの花がちょっとネットで話題になってたやつをざるでなんだろうと思ったら4 tc ブロックっていうままっていう話があって連続アニメでもう終わってて amazon プライムにはもう全部入ってはね言いましたけどもこれ結構良かったねよかったし俺はユーチューバーとして負けてるなぁと思いましたね一人ちゃんにいたかいほどというか収益ができてなんてそもそもサブスク数は出してないから話にならないけどいい意味負けですけどいや面白かったねあれねあれみたいなどやなんかちょっと生ってるねな待ってるねなんかあの東北が入ってるかなよくわかんないけどねちなみにワンショットトーキングフェイスの能力はあのオリジナルの音声もあるんでそっちで食わしてみたら結構なんだろうね滑舌の問題かな顔の動きがはっきりしてるこれちょっとリファレンスとしてねもう1回ね見てもらいましょうこれ正しい音声ねあのあれだそうあのね僕アマゾンプライム入ってるんでアマゾンプライムにあるね映画とかドラマとか見れるんですよちょっとネットで話題になってたやつボザロなんだろうと思ったらこっちじゃろっていう漫画っていう話があって連続アニメでもう終わってて amazon prime も前は入ったんでいましたけども結構良かったねねえこれ同様結構や今後半の奴は僕の喋りでこっちのずっといいけども前の方も喋りはなんか東北なまり入っているけども楽にビデオを作れるっていうのは同じだろうねで準備してたんだけどもちょうどね皆さんも twitter 界隈にいれば昨日とか眺めたんじゃないかなと思いますがなんか暖炉のを後ろに背負いながらイケメンがに減らしのに減らに減らしながらなんか喋ってるビデオが上がってましたよねあれを見てみんなあれ全部が合成合成なんだ ai が合成したんだって言ってもう何でもプレゼン簡単にできるやんって話題にちょこっとなってましたがどうもいや僕あの深追いしてないんですけどもそういうのはあの圧倉ぐらいでいつもするしてるんですがこういうタイムライアン twitter ねあのやりとりがあってあれは何かあのなんだコマーシャル的なものでやらせじゃないけどもみたいな話をっていう話があってねあそうってでなんかお金もしげっかかるらしいよっていう話があってでも皆さん今日僕が今見せたようにねお金もかけないでまぁ gpu 必要ですけども今みたいなビデオがねできるよできるよっていうことであのやってみたら応援面白い面白い面白いのかねよくわかんないけどねて言うて言う話でしたいうかねあの3秒で僕の声を合成してくれるバリーっていうのは早く出してくんないかな僕これ楽しみにしてるんだけどなっていうっていうのが今日皆さんに紹介したかった話でした今日の内容あチャットさんはあはいはいはいちゃんもりさんはねあの忙しくはいっていうことで今日のコンテンツはこんな感じででしたあのあれだねなんか若い僕を出したら急に youtube のコメント欄がに行っている気がするんですが言えないは若さが大事今日の内容ねあのトランスフォーマー完璧に理解したっていうのとあのビデオはね顔写真1枚とあのあとテキストねあのしゃべりのデータ学習データがどれくらい必要なのかっていうのはこれこれもうちょっと詰めて僕のねーなんかもうちょっとしゃべりもうちょっとクリアーに喋ってほしいなぁと思いましたけど結構でも目つぶってたら僕の僕の声間違いないよねそれはねまあでも僕が喋んないという意味がないと思うんでじゃあ何のためにあったって技術でもですけどねっていう感じでしたはいえーっとこれこういうのをねー僕は僕が出たがりでこれをやってるって皆さん思ってるかもしれませんがそんな言い訳する必要ないのかもしれないけどこれ他人の声とか他人の顔でできないですからねやったらいろいろ問題ですから仕方なく自分をネタにやってるんですけどもダンスの時もねでも楽しいですけどねあの何いやーあのそうそうこれコンピューター上で見かけ僕みたいなものが僕が喋ったのを素材にしたテキストを喋ったりするっていうのをなんかすごい面白いシチュエーションだなぁと思ってそれは何重にも面白いシチュエーションだなぁと思っているのがあってそれはあのリアルアバターで自分のアバターを3次元で踊らせるっていうのとも繋がりがあるあの面白さというか複雑さっていうかなんだけども特に今面白さっていうかの次元が1個は1段階上がった僕の中で上がったなぁと思うのはチャット gpt の話がありますねと着 gpt のなどの側面かっていうとチューリングテストっていうかね知性がっていうか意識がみたいにあるんですかないんですかみたいな問いかけもちろんそれのまあ定義も込みなんで明確にいわゆる今までの科学的な話として白黒が簡単につく問題じゃないからここまでこういろいろ難しいことになってるんだろうけどもある見方を素朴な見方をすれば今のチャットgpt って結構 8感情を持ってるって言う言えるじゃんというものは多分あってだからみんなこんなにわーわー言っていてでも ai ちょっと詳しい人だったらわかるようにねこれ僕どっかつぶやいたんだなえっとわかるようにチャット gpt あるいは今回の gpt 僕完璧にわかったっていういわゆるねランゲージモデルねランゲージモデルが言葉を例えば英語を英語英語だけじゃなくて日本語でもいいんだけど紡ぎ出してるんだけどシェイクスピアとか青空文庫とかを学んだ奴がねこれとか見ればいいけども言葉の単語の意味を例えばね8何だろうね秋なっていう秋っていう言葉を僕たちが春夏秋冬の秋って理解してくれているものをこの gpt が理解しているわけはないんだけどもとかね田舎って言った時に僕たちが把握している田舎っていうのを理解してるわけじゃないんだけどもでも辻褄が合うようなそごがないような音を今のチャット gpt とかがやってるのは結局そういうことなんじゃないかとでもそこにそれを見た人間が感情があるとか意識があるとかっていうふうに思っありするっていうシェイションね一方で僕たちは僕たち自我があって意識を持っていると思ってるんだが僕たちもバイオロジカルなシステムの上に乗っかっていろんなシグナル入力出力っていうものの現れを認識認知してそこに意識とかを感じているだから主体がどこにあるんですかっていう話に結局なるのかなと思ってその主体っていうのは何だろうっていうのはわかんないなっていうのどっかつぶやどっかでついた僕のツイッターつぶやいて結論はないんだけどもあのねーシステムのそう機能とまあいや多分今だからある見方をするとというか後じえ的に知性とか意識とかっていうものはそういうシステムのプロパティではない部分でのプロパティですよっていうのが確立してしたとしててかそれが真実だとしたらレトロスペクティブにてか未来から見た時に今っていうのはもう実は人工知能っていうのは発現してるしてたんですよみたいなことにねなってたりするんだろうね僕たちの認識が至ってないだけでみたいなことは当然起こり得ますよねっていう言いたい放題言っててもしょうがないねa それと僕が今 v チューバー堅母さんを作ったことどうつながるんだっていう話だけどね多分僕は多分でもあれね自分の分身をコンピューターに作らせるっていうのは多分に生きる死ぬっていうかね死を意識しているような話ですよねきっとねやっててもなんかそうなんだなぁと思いながらやってるしやってたりするけどね取り留めなくなってきましたごめんなさいはい82月もねこれで終わりで3月はえっと次回は次回は今日の終わりに3月はね31日まであるので29日が最終水曜日になりますある人にとっては年度を収めありますね僕はあんまりカレンダーに関係ない人生を送ってるんであれですけどもはいということで今日の2月末の前傾 ai フォーラムは僕的には面白かったんだけど皆さんに楽しんでいただけたかどうかちょっと自信がないかなはいっていう感じになりましたご意見あのご感想および8なんかねあのこういう話を聞きたいこういう話はつまんないとかあればじゃんじゃんくださいあの対応できるかできないか僕のアレにかかってますけどいうことでえっと今日終わりにしたいと思います結構ね準備直前までバタバタしてたんで時間うまくここまであのねたどり着けたんで嬉しいですけどもはいじゃあ終わりにしますありがとうございました youtube をご覧の皆さんもコメントありがとうございましたa ってことで終わりにしますおやすみなさい

...more

View all episodes

By Kengo Ichiki

August 27, 2023

S38E05 音声合成

36 minutes

当日の市來の発表資料

...more

Share S38E05 音声合成

Sign up to save your podcasts

S38E05 音声合成

S38E05 音声合成