HELLO! AI ポッドキャスト

S40E02 ボイスチェンジャー、その1 これまでのおさらい


Listen Later



ZENKEI AI ポッドキャスト、シーズン40は2023年4月26日に開催した ZOOMライブの模様です。
この日のテーマは「ゴールデンウィーク AI で遊ぼう!」です。

エピソード2は、第1部 「ボイスチェンジャー」その1、これまでのおさらいです。


  • 当日の市來の発表資料




このブラウザでは再生できません。
再生できない場合、ダウンロードは🎵こちら




















ビデオ見れる人はこちらからご覧ください。




(以下は、OpenAI の Whisper を使って文字起こししたものを修正したものです。)

** 注:以下は未編集の草稿です **

こんにちは、ZENKEI AI FORUM です。
今晩は。ZENKEI AI FORUM です。今日は 2023 年の4月26日。4月の終わりの ZENKEI AI FORUM です。

でね 今日のフォーカスはゴルデンウィークにみんなAI関係で何かやりたいなもちろんね チャットGPTを使って色々やりたいっていう人はチャットGPTの情報いくらでもあふれてるんで やってみたらいかがでしょうか面白いと思います 今のね 技術の最先端どうなってるか話題フォーラム 僕 今回ゴルデンウィーク皆さんに話題提供としてはですねパート1 ここでボイスチェンジャーって書きましたが このネタを紹介したいなと思ってますいこうかなはいボイスチェンジャーってもうタイトルにジャーンって入れましたが 振り返ると全系アイフォーラム 僕もともとだから音系のコンピュータープログラムってのが好きなんですね っていうのもあってモデルとかね 色々出るたびに気になってた影響もあって ここ 今年に入ってから1月のイベント2月のイベントで ディープラーニング AI を使った音ネタっていうのを紹介してきました主な文脈は テキストススピーチ TTS って言いますけども文字を モデルに与えると音声が出てくる 喋ってくる AI がっていう ファンクションのことを TTS って言います1月で紹介したのは Microsoft がValley っていうね ボイスで生成権のモデル だからこれ Valley ってオープン AI のディフュージョンモデルの Valley ありましたね テキスト入れると絵が出る イラストレーター マッサオっていうやつのテキスト入れると 音声が出てくる ボイスが出てくるっていう意味のモデルValley っていうのを Microsoft が発表したこれ何がすごいって短い声ネタを学習させたら 例えば僕の喋りの3秒って書いてありますが3秒のデータを与えると 僕の声で何でも喋ってくれるようなことができるっていうのが歌い文句 すげーじゃんって言って使ってみたいとかってわーわー言ってたのが1月でした だけどここに書いてあるように 論文は出たしアナウンスもプレスリリースも代々的にされてモデルを使ったサンプルオーディオっていうのが ページに行けばいくらでもあるんだけどもモデルが公開されてないっていうか モデルっていうよりも学習済みのモデルが公開されてなくて 僕の声で生成するっていうのはすぐにできないうーん残念っていうのが1月でした その辺を自分でするにはどうしたらいいのっていうんでオーディオ関係のディープラーニングの 学習フレームワークっていうかなそして esp ネットっていうのが歴史が古くあるらしいっていうのを学んでたっていうのが1月でしたそれを受けてね2月 esp ネットを使ってじゃあ僕の声で実際にね上でバリーが使えないんだったら esp ネットで他のモデルでいいから僕の声を生成するモデルを作ってみようってやったのが2月でした でデモとしてねv チューバー 兼語作ってねあの 音声のテキストスピーチモデルは vits という vits っていうモデルを esp ネットでファインチューニングして僕の声を生成するようにしましたでねその結果っていうのを2月に発表して 喋らせた動画がありました興味ある方は見に行ってください ビデオのアーカイブもありますでここまでが小前というかあの状況でしたと今回は新しい皆さんまだ今日お見せするネタでね応用編やります v チューバー兼語さんちょっと本格的にですね応用してみよう で時期的にねチャット gpt が出てきてるんで この v チューバー兼語さんにチャット gpt で作った物語を喋ってもらって で同じく ai の顔を動かすモデルっていうのはねあのワンショットトーキングヘッドモデルだったっけ 僕はこの上で使っているやつを使って 実際にだから元ネタはチャット gpt が書いたテキストと僕の顔写真っていうか写真だけであとは ai さんが生成したビデオを喋りのビデオ語りのナレーションのビデオっていうのを作ったんですね それを応用編としてご紹介しますちなみにまずねネタね ストーリーチャット gpt に子供向けの物語を書いてへって言って 8書いてもらった物語のこれですタイトルはねたまという犬の冒険えっ 何かねありがちっていうかねまあいいんですけどチャップ gpt が作ったんで まあね恥ずかしさもチャップ gpt のせいでせいにすればいいでえっとこのストーリーをねテキストをさっきの tts 僕の声でパインチューニングした tts に壊して僕の顔をベースにした8生成型の 顔で喋らせますちょっと4分半 えっといきますねちょっと聞いてくださいんたまという犬の冒険 作でタッチ ptたまは小さな犬でしたがとても愉快でした ある日彼女は家の庭で遊んでいると突然大きな鳥が現れました鳥は玉を捕まえ 空に飛び上がってしまいましたたまは怖かったけれど彼女は決して諦めませんでした 彼女は鳥の背中にしがみつき空を飛び続けましたしばらくの間たまは風に揺られ空を飛び続けました やって鳥は山の上に着陸しました 雨は時からにらしいまあ読み回しました 彼女は山の中に入りそこで新しい友達に出会いました 彼女の友達は山の中に住む小さな動物でしたたまは彼女の新しい友達と一緒に 山の中を探検しました彼女たちは 美しい滝や川そしても世の中を歩きました しかし彼女たちは危険な状況にも遭遇しました 彼女たちは大きな熊や蛇と戦わなければなりませんたまは彼女の勇気と友情によって山の中で多くの冒険を経験しましたそして彼女は家に戻ることになりました 彼女は家に戻った時彼女の家族に彼女の冒険の物語を語りました 彼女の家族はたまの冒険の物語を聞いて動きました彼らはたまが山の中でどのように生き延びたのか そして彼女がどのように勇敢に振る舞ったのかを知りたがっていましたたまは 彼女の家族に彼女が出会ったすべての動物や人々の物語を語りました彼女は山の中で出会った熊や蛇 そして山族たちとの戦いについても話しました彼女の家族は彼女が冒険を経験したことに驚き そして彼女の勇気に雨を受けました彼らは 彼女が家に戻ってきたことを喜び彼女を抱きしめました そしてたまは 彼女の冒険の物語を書いた本を出版することを決めました彼女の物語は多くの子供たちに勇気と友情の大切さを教えることになりましたたまは彼女の冒険を通じて自分自身を見つけ そして彼女の家族や友人たちとの絆を強めることができましたそして彼女は自分自身が何を達成できるかを知り 自信を持つことができましたたまは自分自身を見つけた後 新しい冒険に挑戦することを決めました彼女は自分が何を達成できるかを知っていたので 自信を持って次のステップに進むことができました彼女は新しい友達を作り 新しい場所を探検し 新しいことを学びましたそして彼女は自分自身が成長し 自分自身を信じることができました最終的にたまは彼女の家族や友人たちと再会し 彼らに自分の冒険の物語を語りました彼女は彼らに自分自身を見つけ 自信を持つことができた理由を説明しましたそして彼女は彼女の家族や友人たちと一緒に 新しい冒険に出かけることを提案しました彼女は彼らと一緒に冒険することで 彼らとの絆をより強めることができると感じました彼女の提案に賛成した家族や友人たちは 彼女と一緒に新しい冒険に出かけましたそして彼らは新しい場所を探検し 新しい友達を作り新しいことを学びました 彼らはたまの冒険を続いて自分自身を見つけそして彼らの絆を強めることができます そして彼らは自分自身が何を達成できるかを知り自信を持つことができた 彼らは幸せな結末を迎えました全部喋ってもらえるので楽ちんですね 声は聞こえていることを祈ってますけどもあのミキサーのループバックって コンピューターの出す音声がきちんとアウトに乗るように マイクに乗るようにしないといけないねなんかうまいことする方法あんのかねはい っていうのがtext to speech の サマリンですね今までの集大成が今のでした
...more
View all episodesView all episodes
Download on the App Store

HELLO! AI ポッドキャストBy Kengo Ichiki