ZENKEI AI ポッドキャスト、シーズン34は2022年10月26日に開催した ZOOMライブの模様です。
この日のテーマは「最近の話題から〜2022年秋〜」でした。
エピソード4は、前座その3「Whisper という音声認識ニューラルネット」です。
このブラウザでは再生できません。
再生できない場合、ダウンロードは🎵こちら
ビデオ見れる人はこちらからご覧ください。
(以下は、OpenAI の Whisper を使って文字起こししたものを修正したものです。)
** 注:以下は未編集の草稿です **
こんにちは。ZENKEI AI FORUMです。
みなさんこんばんはです。2022年、早いね、10月26日。10月の、もう最終水曜日になりましたが、 ZENKEI AI フォーラムです。
進めます 3つ目の前座の3つ目ウィスパーこれね AIネタですからね 一応メインパート半分っていう感じでやっとAIに入ります ウィスパーという音声認識ニューラルネットの話を紹介しますね あのこれもここ1ヶ月以内の話ですねあのオープンAIが DARI2でねテキスト2イメージの扉を開いて その後ミッドジャーニーからステーブルディフュージョンから ノベルAIのあの辺でねアニオタの人たちの世界になっちゃって 僕はあのもうあのちょっと忙しいのもあって他の他のことをやりたいのもあって 触れてないんですけどもそのあのオープンAIがオーディオ 喋りの音声データから文字起こしをするっていう ディープラーニングモデルを公開したしたんですね でっていうニュースが流れてきててこうと思ってて 注目したポイントはですねこいつまああのやっぱりデータセットのね あの偏りゆえなんですけどマジョリメジャーは英語なんですけども このモデル結構すごくて日本語もいけるよっていう話がちらほらと twitter のタイムライン上で流れていてですねこのね吉田さん のツイートですけどもウィスパーの全モデル8サイズによってねえっと5種類か6種類か モデルのバリエーションがあってでそいつの吉橋を比較してすげーすげーっていう ブログエントリーをねあってっていうツイートがあって8思って見に行って日本語ねー すごいなぁあの書き起こしでこの人自身は ポッドキャスターなんですねあの仲間だと思いましたけどしあの面白かったあのまさにね あのウィスパーの8論文を読んだっていうあのポッドキャストのエピソードがあってね僕 最後の歴史と聞けてないですけどもこれ面白いなぁと思ったのかあの似た似た ものを感じるなぁと思いましたけどね でねポッドキャスターにとって このモデルねウィスパーは実は あのすごい役に立つツールだということなんですよで僕もそのことに気づいてですね この1ヶ月の半分ぐらいの熱狂はそこにあるんですね残りの半分は文学と言いますけど あのあるんですよで僕も試してみたという話ですでえっと何はともあれですね一時情報を確認しとこうってね 確認しとこうつったってあのサイトに行ってあーなるほどねと思っただけですけど論文読めてないんですけども あの後で4の子と思いますがなんかあの特に細工を施しているっていうよりは 普通の8エンコーダーデコーダー形式のトランスフォーマーのモデルを 大量のデータセットで鍛え上げた っていうことらしいですねそれですごく性能が出たということなのかなという論文を読んでからきちんとこういうこと言った方がいいですね あのですこの辺論文今から4読むかな読まないかなわからないっていうことであの使い そうだっていうのはあったんで自分も使ってみようってことでローカルマシンにインストールってねもう今時の モデルはねインストールったって昔はオープンソースのプログラムで自分のマシンにインストール しようと思ったらソース コードをダウンロードしてきてまず展開したらメイクファイルをカスタマイズするとかねそういうところからやるっていう世界を 知ってる人にとってはもうこういうのはインストールとは呼ばないですねピップ一発でも環境設定終わりすぐ使える だからフォローがインストールって言葉適切じゃないですけどもねああこれだけで動いたかっていうとちょっとこのピットフォールがありまして 8音声ファイルがねあのトランスコードってがウェイブファイルねえっとの場合もあれば mp 3の場合もあればいろんなバリエーションありますけどもそこら辺を 吸収するのは ffmpeg に依存しているみたいで8こいつをプログラムで実行するには ffmpeg がインストールされてなきゃいけないっていうあの落ちがありますのこれ 入ってなかったね僕のジュピター環境にはなんでインストールする必要があるでも何も難しくはないですよと部分2ベースの os ですから apt インストール一発で終わるとffmpeg もできたらもう後は使うだけ っていうことでえっとまず簡単であろうモデルさんにとっては簡単であろう英語会の音自分のポッドキャストの 英語会を壊してどれほどのもんかちょっとあの3指差してくれとか能力をねやってみました コマンドラインツールもインストールされているしライブラリーも入っているんだけどますコマンドラインツールで 英語を書き取り書き起こし文字起こししてみましたこれ出力ですけども標準出力時間タイムスタンプとそこの8英語の書き取りの ワードが並んでますねえっとせっかくなジュピターの環境でインストールしてトップしたのでパイソン から使ってみようってでライブラリーももうあのインストールできてるんで 8インポートウィスパーやってモデルをロードしてえっとオーディオファイルをモデルのトランスクライブ関数に与えたら結果が出てくると結果ファイルの中の テキストっていうエントリーにできそうがペダッと文字列として入ってると ねすごいすごいとで英語の場合はこのモデルのバリエーションさっきねあの吉田さんという方がいろんな モデルを試しましたよっていうふうにありましたけども8デフォルトがベースっていうモデルがあってこれあの小さい方から多分2番目か3番目の 家ほんとにちっちゃいモデルなんだけども英語の場合はねもうほとんど 問題あの細かい問題はありますけどもあのパッと目にこれスタート地点として使う分には全然実用的なもんだなぁ 思いましたで1回分のエピソードねあの僕の英語会のあのポッドキャストのエピソード25のやつを 全部食わして書き起こしした奴がこれになりますこれねこれだけ僕あのポッドキャストって ai フォーラムはねあの原稿今画面に映してる奴を見ながら喋ってるっていう意味でこれは厳密な原稿ではないですけども話す内容は事前に一応準備してね作ってるんです けども音楽とするポッドキャストはもう本当に準備なしで マイクの前に座って録音開始って今日さあ何を喋ろうかなというふうにやってるだけで1時間ぐらい回してもいいかな終わり の英語で喋ったのがこれで文字起こしした方なってそうかーってねあの 0からねシンエアーからこれだけの文書が出てきたのかと思うとなんか考え深いですけどねあの すごいあとあのこれは結構体を入れてますあの固有名詞系の話とあと文章の切れ目がやっぱり僕の喋りでそこ は切れてるのかつながってるのかって僕喋ってるは者なんで気持ちはわかるんでねあのまあ簡単なんでこれでもすごい多分効率的だろうなと思いますね自分でビクテーション というかあのゼロから書き起こしして文字起こししてっていうのを考えたら多分夢のような 環境なんだろうなと思いました思いましたしa 作文をねこの量の a 作文を例えば僕はね 白って言われたらもう最初からできませんって言っちゃうけど 口術筆記だねこれだけの文章を僕は作り出せるんだと思って 思いましたねそれはなんかちょっとちょっとしたブレイクする自分の中の価値観というかね能力というかね あーと思ってあのだから英語文字起こしするとこれって同じなんですけどねあの音声で録音してるっていうこと自体がすでにまあ 映像かで情報の映像化になってるっていうのは頭ではわかってるはずなんだけどもなんか音っていうのは僕にとってはあの 空に消えてしまうっていうふうに認識してるんですねだけど文字っていうのは残るもんっていうふうに頭の中に認識していて今回文字起こし podcast を文字起こししたこの文字を見たらあーって僕のこの 喋ってるこの時間っていうのはこのこういう形にものになってるんだっていうのはなんか結構インパクトでかいですね 個人的な話ですけどねはい英語編でさっきから言ってるようにウィスパーのパワーのあの大きなポイントは 日本語もいけるよっていう話なのでわかったとじゃああのその前のね英語回の前に日本語回を9月に8 収録しているその24エピソード24ですねこいつも同じように食わしてみたと でベースモデルでまず試してみたんですねそれがこれなんですけどもやっぱりねこういう名刺とかまあこれはね 厳しいなっていう風な感じですよねえっと最初の一文を読んでみるとこんにちは今日は 今日はなんて書いてる今日職日ですねこれ祝日かなんかを言って今日祝日ですねって言ってるのがなんかこう意味不明な単語になってると 音楽とすりポッドキャストの収録書かなきゃ な収録書書だななんかあのね日本語としておかしくなっているパッと目には部分的に大まかにはいいんだけど持っているねまあベースモデルとに 小さいものでなんでじゃあ最大のラージモデルで同じ音声ファイルを壊したのがどうでしょうかっていうのはこのに公明のやつですねこっちだと こんにちはこんにちは今日祝日ですねと 久しぶりに音楽と数理ポッドキャストを収録しようかなと思ってオーダーシティーっていうのはねあのオーディオ編集ツールを大田 ct って言うんですけどもこれスペル間違ってますねをね起動して録音ボタンをポチッとしたんですが今ね大田 ct 以外は完璧ですねということでこれ結構やっぱりインパクトすいける 分かりましたということで8ねえっとエピソード24のねあの書き起こしを ポッドキャストアンカーにアップロードしてるんですけども8ワードプレスに 連携してよってアンカーさんがしつこく言うんで連携して作ったんですねそのアンワードプレスの方にこのトランスクリプションを 入れてみましたねっ 書き起こしのこれで見たらさっきも言ってるね英語を見てすげー感動したっていうよね 文字になってるの見たらねなんか感動するね 喋っといて自分で喋っといて何を言ったんだって話でしょうけどもね 結構な文字数を喋ってるんだなぁと思ってただただね30分とか1時間弱喋っているだけだとあっそうって感じだけど 文字にするとこんだけ取り留めもなくねでも 一応ちゃんとストーリーっていうかねあの文章としても成立してるなって思いますけどねそれは僕だからそう思うのか他の人が見てるそんなことないよっていうかわかん ないですけどねまだあるよここでまだ半分だよっていう 星様でも飛ばしちゃいますがこんな話ねでんっ すごいねこの回はねこの回はね竜と蕎麦菓子の姫を見たっていう映画レビューまでしてるよ 興味ある人見てください同人誌の話をここでもしてるねあの 1年前てこのさっき言った ai フォーラムポッドキャストたまたま同人誌の話ですけどここ あれねジャム記号にあのそこの回の内容として引用したんですねそういう感じで何回も エコーのようにあの繰り返されてますかっていうウィスパーの書き起こしはすげーっていう話です でねっ 書き起こし何がすごいってテキストデータになってることね だから8フランスコードっていうセンスねあのテキストを ベースに版組みできるわけだだから本が作れるっていう話になるわけですよラテフでねあのこのテキスト版組みしてみました 物好きやねって話ですが今のねエピソード24なかなかとさっき web ページに乗っけたやつをラテフでで座向き方 スタイルね横書きの2段組で書いたらこんな感じをもうなんか ジャム記法ボリューム3のエッセイ1本できたって感じよねでいやこれでいい気になって 8数式とか何も入ってないから ねえせだからこれ縦組みで見てみたいなと思って で僕ラテ風は長く使ってるんだけども縦組みってやったことがないね多分ねあの なんかスタイルファイル入れたらいいんだろうなっていうぐらいの知識しかなくて ググってみたらなんか今今ね僕この up ラテフ utf が通るラテフ日本語ラテフっていうのにこの間使い始めて感動したっていうレベルだけどそれ あのその jl リックっていうのこれ全然僕知らないんだけども高校れを使ったら縦組みで綺麗に書けるよって ウェブサイトを受けて8持ってそのまま壊してみた したこれをもうちゃんね微妙にねあの 反角の文字とかは横向いちゃうんであの 基本のアプローチとしては数字とかは全角を使うべきあとこのに文字続ける奴はなんかあの 特別なコマンドで囲い込んだりするっていう手間が発生するらしいですけども全体の組み方としてはこれ 文学振りまじゃないけどこの文芸師になる者の分言ね自分のエッセイのほど分げて偉そうに言うなっていう話はあのしますけども自己突っ込みをしますけども クリージョンと思ったねー 文庫本スタイルでなんか一冊作ってみたいちっちゃいあのね作ってみたいなという気がしてるんだけどそれのいいネタかなと思ったりも してねポッドキャストのエッセイ集を あの苦労せずに出せるじゃんと思って今思って分量的にどれぐらいハマればできるのかなって今3台してるそれでもやっぱりあの文字起こしたやつを 全部自分で構成しなきゃいけないんですよ手回ってやってまうんですけどね はい文学フリマー次は目指すぞ マジかってわからないですけどねあの っていう8ウィスパーで文字起こしでこれいいんで しかもあの文字化すると いいポイントが別にまだ上乗せされて何かってまずまずねあのオーディオファイルビデオもそうなんだけど内容確認が 実感がかかるね今時はオーディオ再生もあのグラウザー自身が早回しとか普通のデフォルトのプレイヤーが早回し機能入ってるんでそれでもいい 昔みたいにあの同じ時間を聞き続けないと全部聞けないっていう状況はなくなって倍速ぐらいで早く早回しで聞くっていうことはできるようになったけども ビデオも一緒でコンテンツを舐めるように検索するみたいなのは良くないメディアですねそれが文字だと人間がページを送るみたいなね ホームがウェブページでもそうだけどテキストってやっぱりスピードがアクセス性が圧倒的に高いっていうのがあるので文字起こしはすごいインパクトがあるだけでなく さっき言ったようにテキストデータになるっていうことは検索ね db に突っ込むとか検索のインデックスイング1回すれば検索でペペってもう膨大なテキストの中からピンって場所が取れるようになるっていうので これはいいいいいいですね情報を貯める系のブログとかずっと書き続ける系の人僕みたいな人はこれはのいいですよあのポッドキャストをやってるシチュエーションでっていうんで えっと前期 ai ポッドキャストも8ねっエンド10月からはやっと今年のシーズン25に突入しましたって言いましたが 今までのシーズン1からシーズン24までを今すぐやるかっていうとそういうパワーは起きないですけども今後のリリースするエピソードに関しては極力 文字起こしも入れて8アップしていこうかなぁと思っています1エピソードが大抵20分ぐらいの感じで今回あの リリースした奴は例えば文字全部表示するとこれぐらいの分量になるねこれやっていこうと思っていますあの このねポッドキャストのウェブサイトに行けば 8ここに文字起こしを下に 入れるっていう形式で読めます だから20分全部聞く必要はポッドキャスト聞いてもらってもいいハンズフリーでアクセスできるっていうのはポッドキャストって今生メディアのポイントですけども 8ねホームページをブラウザーで読むみたいなあるよねまあの本を読むみたいな感覚で情報にアクセスしたいなぁっていう人はテキストも アクセスできるようになるというマルチメディア環境になったっていう感じでそういうふうに運用していきたいなと思ってます っていうことで今までが前座ここで8時にもなっちゃったはいっていう感じですっていう前座でしたね ai 技術があの道具として文字起こしねこれ文字起こしの話ですけどもこのクオリティでポンって使えるように なってるっていうのは多分 革新的なことなんでしょうねあの素朴に考えたらだってあの10年前とかね 文学フリマーの話のあの投稿が2002年だったって話2002年つったら今年22年ですから20年前っていうのはびっくりなんだけどもその時に 文字起こし ai でここまで本てできるかっていうふうに想像したでて誰もしてないよね っていう考えをなんかねもうこれできて当たり前って心の半分ぐらい思ってたりするなんか冷めた自分がいてもそれはフェアじゃないだろうっていう気がしてるっていう ような話ですけどねうんはいえーっということで全座にセットアップしてた3つが終わって8時間も 8時近くになってるんでちょっとあの進めますね