ZENKEI AI ポッドキャスト、シーズン40は2023年4月26日に開催した ZOOMライブの模様です。
この日のテーマは「ゴールデンウィーク AI で遊ぼう!」です。
エピソード3は、第1部 「ボイスチェンジャー」その2、RVC すごい、です。
このブラウザでは再生できません。
再生できない場合、ダウンロードは🎵こちら
ビデオ見れる人はこちらからご覧ください。
(以下は、OpenAI の Whisper を使って文字起こししたものを修正したものです。)
** 注:以下は未編集の草稿です **
こんにちは、ZENKEI AI FORUM です。
今晩は。ZENKEI AI FORUM です。今日は 2023 年の4月26日。4月の終わりの ZENKEI AI FORUM です。
で、今日の本題はテキストとスピーチじゃなくてボイスチェンジャーなんですねこれ、ごく最近というか今月の話なんですけども4月に入ってからの話ね、このRVCっていうのは出てきてみんなっていうかね、僕のTwitterのタイムラインでは大騒ぎ、みんな驚いてた、何かっていうとボイスが変わる、本の内容とはオタクの人たち、おじさんたちが可愛い女の子になりたいっていうニーズにベストフィットしている技術らしいんですけどもね、技術としてはテキストとスピーチはテキストを入れて音声を出すで、さっきのえっと僕がね、あの ESP-NETで自分の声でファインチューニングしたモデルっていうのはテキスト打ち込むと僕が喋ってる、今聞いてもらったと思いますが僕が喋ってる声でテキストを読み上げてくれるテキスト読み上げプログラム的なものを想定してもらったらいいんですけどもボイスチェンジャーは入力はテキストではなくて別なっていうかオリジナルの音声、音声to音声だから画像で言うと画像生成型、画像から画像にギャンみたいなやつのイメージなんですねで実際にBITSはえっと確かギャン系のモデルだったと思うんですね、中でやってるのはねで、だからマイクで僕がこういうふうに喋ってこのRVCモデルを女の子のモデルで学習してたら入力は僕の声なのに女の子の声がアウトプットに出てくるっていうしかもリアルタイムで処理ができるぐらい軽いでモデル自体の学習も結構軽いそういうモデルがポンと出て、しかもクオリティが高い本当に学習したモデルの人が喋ってるように聞こえるえーっと、思ったで、とっつきにくい要社が一つあってこの開発を主導しているのは中国の人たちのコミュニティだったんですねで、ウェブUIが提供されているんだけどもwebアプリケーションがGitHubに提供されているんだがボタンとか説明書きが全部中国語なのであーって僕とか中国語をやっぱり勉強したらこういうのがサクッと分かるんだなぁと思って勉強したいなぁと思ったりもしましたがそこ一つのあのね、参入衝撃というかあるんですがえーと、しかしクオリティがあまりにも高くてみんな盛り上がってね、みんな使ってみたいって攻略したいっていう熱があって解説とかはじゃんじゃん出てきてるんですねで、モデルの仕組みとかやっぱり興味あるんですね僕とかはね、あのー、でこれ論文とかになってるのかなそれともこれ自体なのかなえーと、この禅のね、あのー富物さん、ごめんなさいね、ちゃんと、ちゃんと終わりですねの記事がよく書けていてこのコードを解析したのがねえーと説明をから引っ張ってきたわけですけどもえーと、音声構成のモデルは今チラッと言ったようにBitsを使ってるらしいBitsっていうのは上で僕がね、さっき皆さんに聞いてもらったこのタマという犬の冒険で喋った僕のモデルねこれESPネットでBitsっていうモデルをTTSのモデルをファインチューニングしたっていうやつですけどもえーと、音声を生成するエンジンの部分はBitsを使ってるらしい、このRVCねボイスチェンジャーモデルはで、でもさっき言ったようにTTSのモデルってえーどれくらいかかったっけ一晩くらいかけましたねで、学習のために僕の音声データとラベルねテキストとスピーチなので音声データとテキストデータがペアになってる学習データが必要だったんですねただし、えーと、書き下ろしAIモデルが今あるのでWISPRっていうオープンAIが出してくれたすごく高性能なしかも英語だけではなくて日本語も通る高性能に通るモデルがあるのでまあそれ使えば実質音声だけあれば書き下ろしのラベルはそれを使えばいいっていう話で実際に僕とかはそれをそうしたんですけどもえーそういうことをする必要があるんだけどリアルタイムで音声入力で音声出力っていうのはまた構成が違うんですねどうやってるんだろうビッツを使ってるっていうのはいいんだけどもどうやってるのっていうのが最近流行りのですね特徴量ベクトルAIでテキストでナチュラルランゲージプロセッシングとかGPTとかがわーっと出てきてみんなわーすげーすげーって言ってることの応用の一つでラングチェーンとか出てきてテキストっていうものの特徴量特徴付けっていうのがモデルによってできるんですねで そうするとその特徴量ベクトルで品棒探索すれば検索的なことが作れるんですねこの特徴量ベクトルに近いものをサンプルの中から一番近いものを10個持ってきてだらんその特徴に近いっていう性質を持った10個の他のものがペッて出てくるわけですそれってまあ検索ですよねっていうで そのためのライブラリーっていうのがFaceって読みでいいのかなメタが作ってる提供してる品棒探索のライブラリーこれ結構古いんですけどね2017とかだったかなこいつを使って音声入ってきたって言って音声合成なんだけども多分ね 音声を形態そうじゃないけども切り分けて音説っていうかフォネティックスでどうこうっていうんではない方法なのかきちんとコード読めって話ですねでも今流行りのっていうかな特徴量ベクトルで検索マッチングをするっていうのを中でやってそれによってまあイノベーションですねリアルタイムで音声変換ができるような仕組みをこの中国のコミュニティ作ったとそのクオリティたるやっていう話ですで実際にまあ試さなきゃどんなもんかわかんないっていうんでコードはね全部GitHubで公開されてるのででみんなワーワー言ってねあの試してすげーすげーって感動してたのが4月の中旬の風景でしたけども僕もやってみたとねで2ステップあのリアルタイムのボイスチェンジは僕はあんま興味なかったんでそっちをやってなくて単にえっとボイスチェンジっていう機能自体をねあの味わいたかったんで僕の声および他の人たちのモデルもあるんですけども学習フェーズ自分の声を使ったモデルを作りたいっていうのでまず学習フェーズやってみましたね web これはねもう面倒くさかったんで提供されている web アプリでやります必要なものは音声ファイルだけですだからこれねだから非常に危険な技術なんですねここまで紹介しといてあの今更危険だって言うなって話ですけども何がどう危険かって言うとクオリティが高いが故にこれの危険性がさらに高まってしかも言ってるように音声ファイルだけあればモデルができちゃうねあのpts はさっきも言ったように音声もちろんねあのちょっと知識があればさっき言ってウィスパーを使えば音声からテキストが生成されるんでそれがっちゃんこすれば学習データになるでしょうってでもそのひと手間があるかないかで世間への広がり方が全然変わってくるんですけどこいつは録音さえあればモデルが作れるっていうもうそういうセットアップになってるんじゃないイージーなでクオリティが高いですごいんだけど危険だっていう部分はあの強調しても強調しすぎることはないんで言うんだけどもどう危険かっていうとねディープフェイクって一時期話題になっても今や誰も言わなくなりましたがバラクオバマがねあの言ってもいないことを言ってるビデオとか作られてこれヤバいよっていう話がありましたけどもオレオレ詐欺とか具体的に簡単に使われるんですね絶対ねあとあのあれね名探偵コナンの超ネクタイ型ボイスチェンジャーあれボイスチェンジャーって言ってたっけあれが実際にもうできるよねあれだねラズパイとかで動くレベルになったら本当にこれできちゃうよねエンジニア発想で楽しい楽しい言ってたら実社会で害を及ぼす技術かもしれないというのは注意が必要ですねっていうのを言わなきゃいけない人間がね興奮してたらあれなんですけどもあの危険なんですよでえーと言うのは一応置いといて置いといてっていうかあのコメントしておきますし利用は注意しなきゃいけないし利用される方もねだから音声データだけあれば簡単になりすましできるっていう世の中になったんですねだからポッドキャストとかやってるとかyoutube とかを公開してる人たち僕のことですけどもあの人たちはもう素材はね誰でも入手可能な場所にいくらでも僕の喋りの音声データあるんでうちの親とかにねあの電話がかかってきてもきちんと公になってない公になってない情報で承認しなきゃいけないよっていうねあのことが必要なんだろうなとこれたまたまあのネタバレになるからほとんどあの詳しいことは言わないですけどもあのスタートレックピカードのシーズンファイナルシーズンになんかi-2というものがありましたっていうコメントだけさせておきますけども前半の方ね本当にお前は本物かっていうのをねあのローテクでやっぱりあの確認するフェーズが承認フェーズがなんかコメントいただきました太郎さんありがとうございますそうあーわかんない正門っていうのはね僕スペクトラムあのねFFプレイってFFmpegのプレイヤーアプリっていうのをチェックする音声ファイルチェックする時に使うんですけどもあれ音声ファイル入れるとFFmpegなんで基本的に動画再生ソフトなんですよねFFプレイね音声ファイル入れるとスペクトログラムがガーって流れるねでだからあのスペクトラム見えるんだけど多分ね高周波とかねスポット落ちてるんで多分正門分析みたいなのにするとこれは合成ですよとか合成じゃないとかっていうのが比較的簡単にわかんじゃないかなっていう気がしますねこの辺の似てる似てないっていうのは人間のパーセプション自分人間がわかるっていうのが多分重きがあるのでわかんないで適当に言ってますけどもそこを機械的にジャッジする方法はオリジナルのデータを持っている交際のオリジナルデータと称号するみたいな世界を構築できればいいのかもしれないですけどね詳しいステップはそういう危険な技術ということで素人でもできるみたいなレベルであんまり言わない方がいいかなでもこの資料は後で公開するんで基本的には中国語で書いてありますが中国語を突破して皆さん頑張ってやれば学習できます学習自体も僕今回は自分のポッドキャストの音声ファイル僕は自分で録音してるからね音声ファイルは山ほどあるんですけどもそれを1エピソード分全部だったかな学習させたのかな全部だったっけうんこいつはねそうそれが数時間一晩かかるっていう話じゃなくて数時間1時間2時間ぐらいで学習終わってましたなんで比較的軽いGPUマシンですね普通の2080かなですでこれモデルができたと言語モデルね音声モデルこれをボイスチェンジャーっていうアプリケーションが別にあるのでそいつにこの学習済モデルをぶち込んで音声のデバイスをつないでネットでコチョコチョって設定するとリアルタイムでマイクに喋ったらネット配信とかの声が全部言語さんになるっていうことが可能になるわけですねだけどリアルタイムの話は僕めんどくさかったんでJUPITERでね推論フェーズもこのウェブアプリあるんですけどもパラメータ変えたりとかモデルを特快控えするのにいちいちボタンを押してとかめんどくさかったんでJUPITERから叩けるようにコードを抜き出して実際にやってみた今からお聞かせしますサンプルね会社の同僚のですね石川さんちょっと声使わせてって言ってお願いして使わせてもらいましたっていうのも僕やっぱりねそうこれ利用にやっぱり注意をしなければいけないんで使用する時は正しく利用する人は使用する時は使用していいですかって相手にきちんと許可を取りましょうそういう意味で僕は僕のモデルを使ってああでもないこうでもないやってたんだけどこれってボイストゥーボイスでしょ僕の声を僕の声に変換したって面白くないわけですよねだから実感としてすげーっていうのを味わうために僕が知ってる声でっていうので同僚の石川さんの声を使わせてもらいましたすごかったあの後で後でってか今すぐに聞かせしますがそれと合わせてこのRVCっていうのはそれぐらい盛り上がってるので世間的にねえっと学習済みの音声データを公開してる人たちっていうのは少なからずいましたんでその中から2つねあのブースにデータをアップロードしてる無料でアップロードしてるグループが2組いたのでちょっと拝借させていただきました一つはえー日向レイラさんグループたちえっとが作った女の子のあの音声データもう一つもえっと愛想EK少女の声こういうのがニーズがあるんでしょうねえっと千早神社さんどっちもブースなんですねブースっていうのはそうこういうのを下支えしてるんですかねそこでモデルがあってただモデルの提供の仕方がモデルあのねあのパイトーチで実装されてるモデルのウェイトだけ共有されてるんですねでこれあの rvc の使い方を見れば分かるんですけどもマッチングするための特徴量ベクトルとインデックス多分歌に対する音程ですね音程情報を多分結構やってるんじゃないかなと思うんですけどもインデックスファイルとえっと特徴量ベクトルファイルっていうのとモデルのウェイトファイルその3つがあって初めてフルに機能するらしいんですけどもこの人たちはモデルファイルしかと提供してなくて僕の中身の仕組みをきちんとまだいまいち理解できてないんだけど今回は僕のモデルの特徴量ベクトルとインデックスファイルを利用させてもらったらとりあえず音声出たんでとりあえずそれでいいかと思って比較検討させていただきます今から音声流しますそれぞれ1分とか20秒ぐらいの話ですけども元ネタが1,2,3,4種類で音声のモデルが1,2,3,4種類です音ネタはねさっきから言ってる僕が個人でやってるポッドキャストの語り最初の1分のところですでもう一つは2つ目は僕大好きなさっきも言及したねスタートレックねスタートレックのオープニングのところの語りっていうのは好きなんですよそれの日本語版の語りを音声変換するボイスチェンジする英語版の語りをボイスチェンジするとあとみんな知ってるっていうかこれはでも今あれだねあの新しいの出たらねシーン仮面ライダー出たんで多分今の若い人たちも知ってるかもしれないですけども仮面ライダーの最初の語りね僕たちが子供の頃僕リアルタイムじゃない前になってそこをボイスチェンジして僕の語りにするとか女の子の語りにするっていうのをやってみましたこれを順番にお聞かせします黙って音声切り替えますねこれ多分みんな聞こえるはずなんだまずねえっとポッドキャストのオリジナル音声僕のしゃべりを流してこの他の3人のボイスチェンジしたものっていうのをまず最初にいきますはいこんにちは音楽と数理ポッドキャストシーズン2エピソード15かなトーク会収録しようと思ってます前回ピアノ会員の時にね発覚したっていうかね認識したおーって言った話がありましたつまりですね今日のトーク会はテーマがあって特に何しゃべろうっていう準備とか何もしてなくて単にテーマっていうだけですが今日4月8日なんですね2023年4月8日4月8日日本語フルエントな日本語としては4月8日と言いますねえーっとちょうどね1周年ジャスト1周年ですね音楽と数理ポッドキャストの音楽と数理ポッドキャストシーズン1エピソード1音楽と数理とはオールオブユーっていう第1回ですねエピソードが公開されたのが2022年4月8日でしたなので思えば長くっていうかねあっという間に1年もう1年経ってるじゃんっていう気持ちとまだ1年かねあのいう気持ちといつもまあこんな感じですけどねっていうのは正真正銘の僕の生喋りですねこれだけはオリジナルなんですけどもこれを僕の同僚の石川さんに喋ってもらいましょうっていうのを聞きますはいこんにちは音楽と数理ポッドキャストシーズン2エピソード15かなトーク回収録しようと思ってますで前回ピアノ会員の時にね発覚したっていうかね認識したおおって言った話がありましてねこの時にね今日のトーク会はテーマがあってテーマっていうのを特に何喋ろうっていう準備とか何もしてなくて1分丸々は長いかなと思うんで僕は石川さん知ってるんでこれはもうすげーなんですけどもあのみんな知らないかなでも僕の喋りと同じような話をしてるんですけどもね僕の喋りと同じように喋ってるけど声が違う人になっても別人になってますよねはいで女の子のブースで提供されているモデル2つあのいきますねはいこんにちは音楽と数理ポッドキャストシーズン2エピソード15かなトーク会収録しようと思ってます前回キアの会員時に発覚したってごめん認識したおおって言った話がありますつまりしない今日の会はテーマがあってテーマっていうのを特に何喋ろうっていう準備とか何もしてなくて単にテーマっていうだけですが4月8日なんですね2023年4月8日4月8日日本語フルエンタル日本語でした4月8日と言いますねちょうどね一周年チャースと一緒にですね音楽と数理ポッドキャストのこの2つにコッキャストシーズン1エピソード1音楽と数理とはオールオブユーっていう第1回ですねエピソードが公開されたのは2022年4月8日でしたなので思えば長く中古なっていうのは1年も1年取ってるじゃんっていう気持ちとまだ1年ねあのいう気持ちといつもまあこんな感じですけどねちょっと声ちっちゃめかなこれモデルの学習データのせいかなあのですけどもはいなんかねフルエントな日本語で言うととかっていうのもそのまんまあの女の子の声で言ってるねでえっともう一つのテーマがあってはいでえっともう一人の愛想いい系のフォアットモデル最後いきますこんにちは音楽と数理ポッドキャストシーズン2エピソード15かなえー東海収録しようと思ってますで前回ピアノ会員の時にね発覚したっていうかね認識した大って言った話がありましたでつまりして今日の東海はテーマもあってテーマっても特に何喋ろうっていう自分と何もしてなくて単にテーマっていうだけですが今日4月8日なんですね2023年4月8日4月8日日本語フルエント日本語として4月8日と言いますねえっとちょうどね10年チャースと一緒に音楽と数理ポッドキャストの音楽と数理ポッドキャストシーズン1エピソード1音楽と数理ポッドキャストはAll of youっていう第1回エピソードが公開されたのは2022年4月8日でしたなので思えば長くというかなあって言う気持ちとまだ1年かねあんの言う気持ちといつもまあこんな感じですけどねジャスト1周年って恥ずかしいこと言っとるけどねはいそういうこれすごいですよねであとスタートレックスタートレック仮面ライダーは聞きやすい僕の喋りとあの声が大きい愛想フォワット系のモデルだけ紹介しようかなと思いますオリジナルはねあのコピーライトの関係とか言わないけどないですあの僕の喋りになりますあのもうじゃんじゃ流しますねスタートレック日本語版です一期堅強モデル宇宙そこは最後のフロンティアこれは宇宙戦艦エンタープライズ号が新世代のプルーのもとに24世紀において任務を続行し未知の世界を探索して新しい生命と文明を求め人類未踏の宇宙に勇敢に興返した物語である宇宙そこは最後のフロンティアこれは宇宙戦艦エンタープライズ号が新世代のプルーのもとに24世紀において任務を続行し未知の世界を探索して新しい生命と文明を求め人類未踏の宇宙に勇敢に興返した物語である宇宙そこは最後のフロンティアこれは宇宙戦艦エンタープライズ号の旅人未知の世界を探索し未知の世界を探索して新しい生命と新しい文明を求め人類未踏の宇宙に勇敢に興返した物語である宇宙そこは最後のフロンティアこれは宇宙戦艦エンタープライズ号の旅人未知の世界を探索し