October 04, 2023

S40E04 ボイスチェンジャー、その３　〓Bark など

18 minutes

ZENKEI AI ポッドキャスト、シーズン４０は２０２３年４月２６日に開催した ZOOMライブの模様です。
この日のテーマは「ゴールデンウィーク　AI で遊ぼう！」です。

エピソード４は、第１部「ボイスチェンジャー」その３、〓Bark などの話題です。

当日の市來の発表資料

このブラウザでは再生できません。
再生できない場合、ダウンロードは🎵こちら

ビデオ見れる人はこちらからご覧ください。

（以下は、OpenAI の Whisper を使って文字起こししたものを修正したものです。）

** 注：以下は未編集の草稿です **

こんにちは、ZENKEI AI FORUM です。
今晩は。ZENKEI AI FORUM です。今日は 2023 年の４月２６日。４月の終わりの ZENKEI AI FORUM です。

でねふーんて、ふーんてっていうかこれだけでもすごいんですけどもなんかね別なモデルも最近 4月21日のツイートとか書いてありますね出ましたえーとバークっていうやつねこれ噂ではこれツイートの引用ですけれどもこれも簡単に簡単にってここでねテキストツースピーチなんだけどもえっとトランスフォーマーというか gptモデルベースらしい gpt モデルこれもだから僕きちんと論文読めたんですよねあのまだ読んでないですけどもテキストを与えたら音声を返してくれるって最初の方のモデルのえっと最新のモデルっていうかなでえっと公開されているもうモデルも公開されてるしえっとコラボでも google コラボでも使えるしハギンフェイスのスペーシーズでもデモがもう公開されてる公開されてるんだって実験しなきゃいけないとモトデータはいくらでもあるでもこれあの再学習はこれ後のパート2でもありますねまずバーク自体のでもやってみましたっていう話ねハギンフェイスのスペーシーズに行けばテキストこれねあのめんどくさかったんですテンプレのテキストでモデル音声モデルがもうすでにあの提供されているものがたくさんあったのでそれのサンプル音声をえっと実際に僕はスペーシーズで生成したファイルをダウンロードしてきてっていうんで僕的には自分が変化サブミットボタンを押して出てきたものっていう思い入れがありますが皆さんもまあねサンプルを聞かされているだけですけどもちょっと聞いてみますスピーカーゼロ日本人のスピーカースピーカーゼロ英語のスピーカーアンコンディショナルっていうモデルこの3種類でハローマイネームイス数のブラブラブラで面白いのは鍵かっこでいろんなあのキーワードっていうかね対応してて音楽を流すとかこのサンプルでは笑いってね鍵かっこラフで入れるとはははっていうのは挿入されるあのちょっと聞いてみましょう8 日本語英語アンコンディショナルという3種類のモデルno マイネームイス数のエンダー n ライアイクピッツァバーター ios アーレンチャースサチャースプリンっていくタクトハローマイネーム数のエンダー n ライアイクピッツァバーター ios アーレンチャースサチャースプリンっていくタクトハローマイネーム数のアンダーアンダーイライクピッツァバーター ios アーレンチャースサチャースプリンっていったと一番印象的なのは笑いの自然さですねねぇ生成型モデルなのかなはいえっと試してみたっていうだけですけどもこれもう一個ねツイート続報っていうかねこのえっとバークの多分フォークしたのかなバークイズボイスクローンっていうレポジトリがあってこいつを使うとさっきのねバリーっていうやつが 3秒の音声であなたの声になりますよっていう歌い文句だったって話ししましたけどもこのバークイズボイスクローンは 10秒くらいって書いてありますが長いとダメで実際に試したんですけども7秒までの音声ファイル短いファイルを僕の音声を食わせると僕の音声で喋ってくれるらしい点々ちょっと実験してみてうまくいく場合とうまくいかない場合があるっていう感じ試したよっていうのを一応紹介しておくということですえっとギターブのレポジトリここになりますでえっとねスピーカーゼロアナウンサースピークイングリッシュのスピーカーゼロっていうのは既に提供されてバークで提供されている8モデルですで今回僕が僕の音声で10秒10秒だと長すぎるって言ったやつね7秒とかに切ったやつでボイスをクローニングしろっていうのがこのレポジトリの目的ですけどもクローニングしたモデルをバークのモデルを作ってくれるクローニングしてくるんですねその兼護さんバークモデルを使ってえっとバークを読ませたっていうやつ音声をあのお聞かせします8どうしようかな英語のスピーカーでハローっていうやつとカログラブラブラってやつとスタートレックの語りの要約の部分を英語スピーカーゼロでお聞かせした後に 8どっちも英語なんで兼護さんの英語のしゃべりで学習したボイスクローンされたモデルでのしゃべりあと最後に日本語の兼護さんの音声でクローニングしたやつをあのバークはテキスト2スピーチなんで日本語で学習クローニングしたモデルを日本語のテキストを食わせたものっていうのを最後に8お聞かせします聞いてくださいhello my name is Serpii and I like pizzahello my name is Serpii and I like pizzahello my name is Serpii and I like pizzaスペース the final frontierthese are the voyages of the starship enterprise to boldly go where no one has gone beforeとてもいい天気だな私の名前は太郎です私はおにぎりが大好きですうんあの僕の声でその7秒ぐらいで学習させたっていうやつを比較対象の次に次にっていう風にお聞かせしましたがちょっとなんかあれだねあの寄せ切れてないっていうかコメントとか読むとここにあの to create a voice cloneシンサンポーゆにーアンオーディオテキストペアレスザーンセブンセカンドって言ったら僕の最初に言ったらあの理由ねこれ10秒とか使うとエラー出てあの動かないんですよなんでこれあの利用上の注意なんですけどもここに後ろに書いてあるのね2から4秒短い方がいいよいい結果だよって書いてあってこれまだ試してないんで後で試してカウンターインティティブだよねだってサンプルはたくさんあった方が寄せてくるような気がするんだけど7秒でも長すぎてにから4秒の方が性能がいいって本当かねまあこれあと to do リストですねはいっていう風に音声合成系は急に急にっていうかな何僕のレーダーがっていう話なのかアテンションが急に盛り上がってきたのかわかんないですけども盛り上がってますねはいで利用は注意して後利用される方も注意していきましょうディープフェイクねはいボイスクローンの紹介までしたいなその他最近のあの進展は凄まじいっていうのはもうもう ai 関係の情報あの毎日ねそれでも眺めとかないと取り残されるんで見てますけどもそんなかねだから自分の勉強でね毎日 ai 関係の面白そうなのピックアップして場合は分類してね音関係のものを分類してそこからさらにピックアップしたもの今ここで紹介してますけどもその面白そうなというかねあのネタを共有しておきますが最初に言ったねあのtts ってのはテキストを入力にしてオーディオがアウトプットにされるってやつね音声合成ですねウィスパーというのはその逆で音声を入力にしてテキストがアウトプットにつまり人間の作業的によく言うとテープを越し書き起こし作業をやってくれる ai のモデルでそれあのオープン ai さんが提供してくれてるんですけどもウィスパーねこれ半年ぐらい前かな8提供されて 8もう重宝してますけど僕ポッドキャストを使ってますけどあのやってますけども文字起こしねあのブローカーそれをエッセイにしようという話が最初に行ったやつですけどもこいつこいつがですねどんどん高速化されてるらしいとjax っていうねあの高速なライブラリーがありますけどもマトリックス系の演算ができそれにコンバートしたら何倍70倍になったって本当かよっていう感じですけどもらしいまだこれ僕試してないんですけどもあのね70倍が本当だったら書き起こし変化に1時間かかってものが15秒でできるよって言うのはそれそうだよねリアルタイムだから絶対ねあのもう実現される話なんだけどもスタートレース今日スタートレックばっかりねサートレックの世界も実現できるんですよコンピューターって言ったらコンピューターがはい何ですか高校こうしろって言ったらはいわかりましたまあ今も皆さんはスマートスピーカーっていうのを導入された方は導入されていると思いますけどもそれはねあのチャット gpt とかラージランゲージモデルとがっちゃんこすればラージランゲージモデルに今一生懸命みんな手で叩いてますけども言葉でコミュニケーションできるの自分が喋った奴はウィスパーで文字起こししてgpt に出て gpt はチャットなが入力テキストでアウトプット的成会してくれしょアウトプットのテキストをさっきの tts でねビッツでもバークでもいい喋らせればコンピューターが喋ってくる僕の音声ではいいしだってかカンパセーションできるよねもうね多分みんな作ってるよねそれのあのお宅の人たちの楽しみ方が ai チューバーね ai チューバーあれはみんなこう美少女になりたがってるけども僕とかあれだもねダンスの時に言ったようにリアルアバターでやるとかっていうので工作間やねーって言ってましたよねあのリアルの3 d モデルを作っておいてカメラでキャプチャーしてボーンをとって 8リアルアバターをリアルのように動かすでそれが100% 達成されたら何ができるのったら生でビデオ配信している状況になるよっていうこの盗作感すごいなーって言ってましたが1期3 d モデルその時のやつをねと 1期音声モデルあのrvc でチャット gpt でもくっつけたら僕僕の声で僕のモデルが喋るっていう ai オジサン需要ありますかこれねあの笑いながら言ってるけど結構ディープな話でだと思って僕とか考えいろんなシチュエーションで試行実験っていうかね考えると一つ絶対にあるのは今僕はわーわーしゃべってでしょ何年後か何十年後かには僕寿命で死んじゃうわけですよねだけど ai がリアルぽくしゃべるっていうことは多分継続されるわけねで僕の例えばブログとかのテキストをデファインチューニングされたランゲージモデルを僕の3 d モデルに接続して僕のrvc モデルと結合したら今こうやってオンライン配信しているこのディスプレイに映ってる僕死んでも新しいことを喋っている一気がいるわけねそれは僕は望んでないですけどあのサブジェクティブ xp エンスがん大事ですからね僕自身っていうねゾンビ県を必要な人なんですけどでもそう俺はあるよねと思ってディープだなぁと思ったりしたりしますがこれあれだがウィスパーが高速になるっていうことでリアルタイムで入出力共に音声になるねみたいなのはもうできるねっていう話できるんだってやってみろって話だねやりたいです8もう一個別なネタっていうかね new natural speech toっていうのはギガ人ねギガ人は避けてるんですけども安直すぎるしでも以外に結構あの最先端にしがみついて頑張ってあのね大衆にわかりやすく情報提供してるんかなとは一方で思いますけども8そこの記事をツイートしているこれギガ人自身のチェッターカーってなって何が注目ポイントかというとマイクソフトのモデルらしいねねえさっきからずっと言ってわずか数秒のサンプルで音声合成ができるモデルいえっとアナザー tts モデルじゃんと思ってどうなっとんのっていうかでこのモデル時のポイントは何かっていうとあの0点ディフュージョンモデルの音声話つまりあのねステーブルディフュージョンがオープン ai がダリーででっかいコンピューターはないと動かせないっていうのを大衆化した民衆化民民主化した技術ですけどねちっちゃいコンピューターで走るようにする0点とベクターを扱うようにして生ベクトルを使うんじゃなくてっていうディフュージョンもでバージョンらしいそれを音声合成に使ったものらしいんだけどもマイクロソフトさんはバリーおよびバリー x っていうのもあってねあり x っていうのは英語の入力に対してし日本語の出力とかトランスレーションが挟まってそれ使いたいからあのモデル公開していっ8 有名なルーシーとなんとかさんパイト地実装バリーありましたで僕ちょっと試してみたんだけどよくわかんないたんでってか結果がなんかよく出てこなかったのもうちょっと幼稚調査だなと思ってまだ放置しているものがありますかねあの実際に使ってみたいですねっていうっていう音ネタ音ネタボイスチェンジネタでした8時ちょうど8時

...more

View all episodes

By Kengo Ichiki

October 04, 2023

S40E04 ボイスチェンジャー、その３　〓Bark など

18 minutes

当日の市來の発表資料

...more

Share S40E04 ボイスチェンジャー、その３　〓Bark など

Sign up to save your podcasts

S40E04 ボイスチェンジャー、その３　〓Bark など

S40E04 ボイスチェンジャー、その３　〓Bark など