HELLO! AI ポッドキャスト

S40E04 ボイスチェンジャー、その3 〓Bark など


Listen Later



ZENKEI AI ポッドキャスト、シーズン40は2023年4月26日に開催した ZOOMライブの模様です。
この日のテーマは「ゴールデンウィーク AI で遊ぼう!」です。

エピソード4は、第1部 「ボイスチェンジャー」その3、〓Bark などの話題です。


  • 当日の市來の発表資料




このブラウザでは再生できません。
再生できない場合、ダウンロードは🎵こちら




















ビデオ見れる人はこちらからご覧ください。




(以下は、OpenAI の Whisper を使って文字起こししたものを修正したものです。)

** 注:以下は未編集の草稿です **

こんにちは、ZENKEI AI FORUM です。
今晩は。ZENKEI AI FORUM です。今日は 2023 年の4月26日。4月の終わりの ZENKEI AI FORUM です。

でねふーんて、ふーんてっていうかこれだけでもすごいんですけどもなんかね 別なモデルも最近 4月21日のツイートとか書いてありますね出ました えーとバークっていうやつねこれ噂では これツイートの引用ですけれどもこれも簡単に簡単にってここでねテキストツースピーチなんだけどもえっと トランスフォーマーというか gptモデルベースらしい gpt モデルこれもだから僕きちんと論文読めたんですよねあのまだ読んでないですけども テキストを与えたら音声を返してくれるって最初の方のモデルのえっと最新のモデルっていうかな でえっと 公開されているもうモデルも公開されてるしえっとコラボでも google コラボでも使えるし ハギンフェイスのスペーシーズでもデモがもう公開されてる公開されてるんだって実験しなきゃいけないと モトデータはいくらでもあるでもこれあの再学習はこれ後のパート2でもありますねまずバーク自体のでもやってみましたっていう話ね ハギンフェイスのスペーシーズに行けばテキスト これねあのめんどくさかったんですテンプレのテキストでモデル音声モデルがもうすでにあの提供されているものがたくさんあったのでそれのサンプル音声を えっと実際に僕はスペーシーズで生成したファイルをダウンロードしてきてっていうんで僕的には自分が 変化サブミットボタンを押して出てきたものっていう思い入れがありますが皆さんもまあねサンプルを聞かされているだけですけどもちょっと聞いてみます スピーカーゼロ日本人のスピーカースピーカーゼロ英語のスピーカー アンコンディショナルっていうモデルこの3種類でハローマイネームイス数の ブラブラブラで面白いのは 鍵かっこでいろんなあのキーワードっていうかね対応してて音楽を流すとか このサンプルでは笑いってね鍵かっこラフで入れるとはははっていうのは挿入されるあのちょっと聞いてみましょう8 日本語英語アンコンディショナルという3種類のモデルno マイネームイス数の エンダー n ライアイクピッツァバーター ios アーレンチャースサチャースプリンっていくタクトハローマイネーム数のエンダー n ライアイクピッツァバーター ios アーレンチャースサチャースプリンっていくタクトハローマイネーム数のアンダーアンダーイライクピッツァバーター ios アーレンチャースサチャースプリンっていったと一番印象的なのは笑いの自然さですね ねぇ生成型モデルなのかなはいえっと 試してみたっていうだけですけどもこれもう一個ねツイート続報っていうかね このえっとバークの多分フォークしたのかなバークイズボイスクローンっていうレポジトリがあって こいつを使うとさっきのねバリーっていうやつが 3秒の音声であなたの声になりますよっていう歌い文句だったって話ししましたけどもこのバークイズボイスクローンは 10秒くらいって書いてありますが長いとダメで実際に試したんですけども7秒までの音声ファイル短いファイルを僕の音声を食わせると僕の音声で喋ってくれる らしい点々ちょっと実験してみてうまくいく場合とうまくいかない場合があるっていう感じ試したよっていうのを一応 紹介しておくということですえっとギターブのレポジトリここになります でえっとねスピーカーゼロアナウンサースピークイングリッシュのスピーカーゼロっていうのは 既に提供されてバークで提供されている8モデルです で今回僕が僕の音声で10秒10秒だと長すぎるって言ったやつね7秒とかに切ったやつでボイスをクローニングしろっていうのがこのレポジトリの目的ですけども クローニングしたモデルをバークのモデルを作ってくれるクローニングしてくるんですねその 兼護さんバークモデルを使ってえっとバークを読ませたっていうやつ 音声をあのお聞かせします8どうしようかな 英語のスピーカーでハローっていうやつとカログラブラブラってやつとスタートレックの語りの 要約の部分を英語スピーカーゼロでお聞かせした後に 8どっちも英語なんで兼護さんの英語のしゃべりで学習したボイスクローンされたモデルでのしゃべり あと最後に日本語の兼護さんの音声でクローニングしたやつをあのバークはテキスト2スピーチなんで日本語で学習クローニングしたモデルを日本語のテキストを食わせたもの っていうのを最後に8お聞かせします聞いてくださいhello my name is Serpii and I like pizzahello my name is Serpii and I like pizzahello my name is Serpii and I like pizzaスペース the final frontierthese are the voyages of the starship enterprise to boldly go where no one has gone beforeとてもいい天気だな私の名前は太郎です私はおにぎりが大好きですうんあの僕の声でその7秒ぐらいで学習させたっていうやつを 比較対象の次に次にっていう風にお聞かせしましたがちょっとなんかあれだねあの寄せ切れてないっていうかコメントとか読むとここに あの to create a voice cloneシンサンポー ゆにーアンオーディオテキストペアレスザーンセブンセカンドって言ったら僕の最初に言ったらあの理由ねこれ10秒とか使うとエラー出てあの動かないんですよなんでこれあの 利用上の注意なんですけどもここに後ろに書いてあるのね2から4秒短い方がいいよいい結果だよって書いてあって これまだ試してないんで後で試してカウンターインティティブだよねだって サンプルはたくさんあった方が寄せてくるような気がするんだけど7秒 でも長すぎてにから4秒の方が性能がいいって本当かねまあこれあと to do リストですね はいっていう風に音声合成系は急に急にっていうかな 何僕のレーダーがっていう話なのかアテンションが急に盛り上がってきたのかわかんないですけども盛り上がってます ねはいで利用は 注意して後利用される方も注意していきましょうディープフェイクね はいボイスクローンの紹介までしたいなその他最近のあの 進展は凄まじいっていうのはもうもう ai 関係の情報あの 毎日ねそれでも眺めとかないと取り残されるんで見てますけどもそんなかねだから自分の勉強でね毎日 ai 関係の面白そうなのピックアップして場合は分類してね音関係のものを分類して そこからさらにピックアップしたもの今ここで紹介してますけどもその面白そうなというかねあのネタを共有しておきますが 最初に言ったねあのtts ってのはテキストを入力にしてオーディオがアウトプットにされるってやつね 音声合成ですねウィスパーというのはその逆で音声を入力にしてテキストがアウトプットにつまり 人間の作業的によく言うとテープを越し書き起こし作業をやってくれる ai のモデルでそれあのオープン ai さんが提供してくれてるんですけどもウィスパーねこれ半年ぐらい前かな8提供されて 8もう重宝してますけど僕ポッドキャストを使ってますけどあのやってますけども文字起こしねあのブローカーそれをエッセイにしようという話が最初に行ったやつです けどもこいつこいつがですね どんどん高速化されてるらしいとjax っていうねあの 高速なライブラリーがありますけどもマトリックス系の演算ができそれにコンバートしたら 何倍70倍になったって本当かよっていう感じですけどもらしいまだこれ僕試してないんですけども あのね70倍が本当だったら 書き起こし変化に1時間かかってものが15秒でできるよって言うのはそれそうだよね リアルタイムだから絶対ねあのもう実現される話なんだけどもスタートレース今日スタートレックばっかりね サートレックの世界も実現できるんですよコンピューターって言ったら コンピューターがはい何ですか高校こうしろって言ったらはいわかりましたまあ今も皆さんはスマート スピーカーっていうのを導入された方は導入されていると思いますけどもそれはねあのチャット gpt とかラージランゲージモデルとがっちゃんこすれば ラージランゲージモデルに今一生懸命みんな手で叩いてますけども言葉でコミュニケーションできるの自分が喋った奴は ウィスパーで文字起こししてgpt に出て gpt はチャットなが入力テキストでアウトプット的成会してくれしょアウトプットのテキストをさっきの tts でね ビッツでもバークでもいい喋らせればコンピューターが喋ってくる僕の音声ではいいし だってかカンパセーションできるよねもうね多分みんな作ってるよねそれのあのお宅の人たちの楽しみ方が ai チューバーね ai チューバーあれはみんなこう美少女になりたがってるけども 僕とかあれだもねダンスの時に言ったようにリアルアバターでやるとかっていうので工作間やねーって言ってましたよね あのリアルの3 d モデルを作っておいてカメラでキャプチャーしてボーンをとって 8リアルアバターをリアルのように動かすでそれが100% 達成されたら何ができるのったら生でビデオ配信している状況になるよっていうこの盗作感すごいなーって言ってましたが1期3 d モデル その時のやつをねと 1期音声モデルあのrvc でチャット gpt でもくっつけたら僕僕の声で僕のモデルが喋るっていう ai オジサン 需要ありますかこれねあの笑いながら言ってるけど結構 ディープな話でだと思って僕とか考えいろんなシチュエーションで試行実験っていうかね考えると一つ 絶対にあるのは今僕はわーわーしゃべってでしょ 何年後か何十年後かには僕寿命で死んじゃうわけですよねだけど ai が リアルぽくしゃべるっていうことは多分継続されるわけねで僕の例えばブログとかのテキストを デファインチューニングされたランゲージモデルを僕の3 d モデルに 接続して僕のrvc モデルと結合したら 今こうやってオンライン配信しているこのディスプレイに映ってる僕 死んでも新しいことを喋っている 一気がいるわけねそれは僕は望んでないですけどあの サブジェクティブ xp エンスがん 大事ですからね僕自身っていうねゾンビ県を必要な人なんですけど でもそう俺は あるよねと思ってディープだなぁと思ったりしたりしますが これあれだがウィスパーが高速になるっていうことでリアルタイムで入出力共に音声になるねみたいなのはもうできるねっていう話 できるんだってやってみろって話だねやりたいです8もう一個別なネタっていうかね new natural speech toっていうのは ギガ人ねギガ人は避けてるんですけども安直すぎるしでも 以外に結構あの最先端にしがみついて頑張ってあのね大衆にわかりやすく情報提供してるんかなとは 一方で思いますけども8そこの記事をツイートしているこれギガ人自身のチェッターカーってなって 何が注目ポイントかというとマイクソフトのモデルらしいねねえ さっきからずっと言ってわずか数秒のサンプルで音声合成ができるモデルいえっとアナザー tts モデルじゃんと思ってどうなっとんのっていうか でこのモデル時のポイントは何かっていうとあの0点ディフュージョンモデル の音声話つまりあのねステーブルディフュージョンが オープン ai がダリーででっかいコンピューターはないと動かせないっていうのを大衆化した民衆化民民主化した技術ですけどね ちっちゃいコンピューターで走るようにする0点とベクターを扱うようにして生ベクトルを 使うんじゃなくてっていうディフュージョンもで バージョンらしいそれを音声合成に使ったものらしいんだけどもマイクロソフトさんはバリーおよびバリー x っていうのもあってねあり x っていうのは英語の入力に対してし 日本語の出力とかトランスレーションが挟まってそれ使いたいからあの モデル公開していっ8 有名なルーシーとなんとかさん パイト地実装バリーありましたで僕ちょっと試してみたんだけどよくわかんないたんでってか結果がなんかよく出てこなかったのもうちょっと幼稚調査だなと思って まだ放置しているものがありますかねあの 実際に使ってみたいですねっていうっていう 音ネタ音ネタボイスチェンジネタでした8時ちょうど8時
...more
View all episodesView all episodes
Download on the App Store

HELLO! AI ポッドキャストBy Kengo Ichiki