HELLO! AI ポッドキャスト

S35E02 (前座)音のはなし


Listen Later



ZENKEI AI ポッドキャスト、シーズン35は2022年11月30日に開催した ZOOMライブの模様です。
この日のテーマは「最近の宿題〜数理クイズ解答編ほか」でした。

エピソード2は、前座その2「音のはなし」です。


  • 当日の市來の発表資料




このブラウザでは再生できません。
再生できない場合、ダウンロードは🎵こちら




















ビデオ見れる人はこちらからご覧ください。




(以下は、OpenAI の Whisper を使って文字起こししたものを修正したものです。)

** 注:以下は未編集の草稿です **

こんにちは。ZENKEI AI FORUMです。

はい。こんばんはです。2022年11月30日。11月最後ですね、今日ね。 ZENKEI AI FORUM です。

はい続きいきます 音の話ねいきますこれも振り返りの一環なんですがどうもあの 今日のネタをね色々一通りあの 攫っていたら今 の世間は音のブームも来てるなと ai ai 文脈においてねって思ったんでちょっと取り上げようと でこれは紹介だけだなあの 僕ピアノピアノね練習したいとか練習するって言って練習している あのピアノ あの楽とですけど8そこのそういう人たちに対して気はて興味深いですね ai の応用が出てきたんポップオーディオベースとピアノ今カバー ジェネレーション何かっていうと キャンで弾きたいって言ってるとねあの バンドの曲とかだとアレンジが ピアノで演奏するアレンジになってないので弾けないとかありますよねと でこの ai モデルにオーディオを食わせるとピアノのアレンジを出力してくれるっていう ai もまあ あのアイディアショーみたいな感じなのかなっていう感じですけどねでこれモデルがもう公開されててもうコラボで 音楽アップロードしたらミディファイル出してくれるのかなそれともオーディオファイルかな ミディファイルもだな出してくるんですねこれ試しに乗りました いろんな8プレイヤーっていうかバリエーションが選択できて何個くらいあった50個以上の コンポーザーってかレンジャーのオプションがあって全部を試そうかなと思って10個ぐらいあって コラボの多分あのクオーターがを足して使えなくなっちゃったかな止まっちゃったかな あのできたやつとかは今日はここで流す準備をしてないんですけども皆さんもね ピアノポップ2ピアノって検索されたら誰でもコラボに行ってあのできますんで やってみたらいいかがでしょうか個人的には僕は そういうなんちゃってピアノアレンジの楽譜が欲しいっていうニーズはあんまりなくて それよりもむしろ正確なトランスクリプション正確なスコアが欲しいタイプでいいんだよそれは後で 下の方で今日話しますけれどもなんでこれ自体はあんまり深掘りはしないかなという感じ でしたあとねあの ai 界隈で今あの 今っていうのはこの1月2月ぐらいの話あのオーディオに シフトあの面白い話が出てきたなぁっていう話のこれ一つですよねあのこの人なんかキーになる論文を30本読むぞっていう記事を上げていた人がいて ざーっと眺めたらうわ一般あのここ数ヶ月じゃないですけどねあの数年の範囲でいっぱい上がってて こんだけ勉強をしなきゃいけないかなぁ僕もね興味ある興味はその辺にあるんで だーたくさん勉強しなきゃいけないなと思いましたえっとこのツイートはなんだあのあれだこれね この一日喋った時間いくらあってもたんないか8年でもね言及したよ mp4 ファイルっていうの皆さん内部構造を知ってますか普通の人も知らないよねコンテーナーね mp 4というのはコンテナーの名前なんです けどもエンコーダーの名前じゃないね mp 3 はエンコーダーの名前一時期目の敵にされるやつですけども 8っていうのはこれなんで僕興味あったかってがあるかってとデジタルカメラでデジタルカメラってがのパノラマカメラね で動画を撮影しますとしたら今今行けばいいな 聞いたにねこの生地書いたんだ これ金じゃまだ僕のこの壊れた ねあのラマカメラで途中でバッテリーが切れるとか起こりがちですよね そうするとメモリーカードにずっとこう断続的に記録されている奴が途中で尻切れトンボになっちゃって ファイルきちんとクロージングできないままプロセスが終わってしまうような場合がまま マレじゃなくて結構な割合で発生するんですねそうすると 動画ファイルって結構貴重じゃないですかその瞬間を記録している情報ってそのために記録するわけだし どうしても途中まで保存された動画を途中まででいいから取り出したいって思うのが人情じゃないですかっていう話でね これいついつ2019年だねあの そういうこれもAIフォーラムのその時はリアル会場で撮影してたビデオが途中で尻切れトンボになってる奴を復元したいと思って頑張って メモリーカードに残ってる不完全なってか壊れた mp4ファイルがありますとそこに意味をなさなくなったバイト列があって こっからどうやって復元してあのファイルをね動画をファイルを復元しますかっていう長い点末記録書いたんです 僕ちょっとわかるね mp4はねでその mp4のフォーマットをわかりやすいポスターにしたっていう人がいて ああわかるわかるとこれが僕がその時やってた時にあればもうちょっとこう見通しが早くたったのになーっていう 話を話だって話ですねんでああこれこれ良かったんでちょっとこれ見に行こうね音なるんよねきっとねコンピューターオーディオね コンテルこれなんか昔にいたような感じでブロック米とかの写真から あのリズムパターンを構成してなんかダンスミュージックっぽいやつが生成されるみたいあのありましたけども これね僕最近ブームっていうかここ1ヶ月ぐらいはピュアーなサイン派が今ブームなんで これこの音楽なんかハマハマりましたあのいいなぁと思ってっていうのは今日の以下の話でやっぱりサイン派がですね あのフルートの音とか結構ねあの自然共鳴のあの音とかあの ピュアな振動のサイン派なんですけどもああいう柔らかい音が今ね心を癒してくれるなぁというの僕の前分がですね っていう話とこいつもこいつもこいつも開いてみようこれね僕今日の話には入れなかったんですが この人ね c だけでん これちょっとこういうなんか dtm っていうかダンス系あれですけどもこのコードはねあのスクショあるんだけども ポイントね c だけで音楽作っても全然ありだなぁと思っていや僕はの c でねあの音声解析のプログラムとか書いてたんでああああああああああああああああああ あの今あのいろいろねツールとかあるしシンセサイザーとかあるしっていうのでどんどん 高音楽をするっていうものに対してのこう 準備レベルばっかりいっぱい溜まっていて習得するスキルはそれぞれには必要ですからね でもあのや c でかけるんやったら c で書いても音にしちゃえばいいじゃんっていうのがいいなぁと思ってセンスとしてね 態度としてちょっと刺激を受けて僕 スクラッチからあのスピンがを重ね合わせるプログラムよく書いたりして実験してるんですけどねその一環地域を知ったの方にね c じゃないですけど今日紹介するのはパイソンの話を 紹介しますがそういうのかねまあこれはいいや っていうような流れからピックアップした スイッツいいとですねこういうツイートも流れていたこれ11日だ11月11日 論文紹介ですねなんかすごいインパクトがある新しい手法っていうか しかも音楽解析で周波数を 取り出す新しい革新的な手法らしいぞっていう話がありましたこれね 思い切り興味があってどんな本当に革新的なアプローチだったらぜひ取り込みたいなぁと思ってちょっと論文を 読んでみたっていう話が今日の1本目の話ですこれがその当該論です 新創意であるフリークエンシーエスティメーション by グレイディンディセントだから周波数の 予測をしましょうその方法はねあのグレイディンディセント でねえあの最急強化効果法というかあの 勾配法使ってで勾配法っていうのはもうあのわかりやすく言えばディープラーニングパイトーチとかテンサフローとかで使われている技術を使って 周波数予測をしましょうっていう話っていうタイトルね うんふんとで論文が出ているのでこれ10月の論文ですけども でえっと論文で紹介されている内容を再現するコードのコードもGitHubに紹介されたでさっきのツイートの人自身かな があの聞いたんやっぱりねあの解説論文って解説記事を書いていたでまぁ僕自身も興味があるんでちょっと読んでみたっていう話をします 軽く読んでみましたなんでこうがあってこれをピックアップしたかっていう背景を説明しますとこの話自体が オーディオからさっきも言ったように周波数はね音の高い低いっていうのを取り出すっていうタスク を扱っていてで手法はさっき言ったグレーデンディセントを使ってそれをやるよっていう話で何やら 革新的らしいっていうことが今のツイートを見て論文のタイトルで思ったことねなんで深読みしてみようと思った なんでかっていう理由その1はですね1ここの部分がまず ヒットしたんですがさっきも言ったよねあのピアノを練習したいと思っていて耳コピね あのしたいけどできないんだあの 子供の頃からクラシックピアノとかをやってるタイプの人間ではなかったので身体能力としての音楽 ね耳コピ能力が低いんでじゃあどうするかって言うと俺にはコンピューターがあるっていうことで ねコンピューターで解析させればいいじゃんっていう開き直りの話をですね僕あの音楽と数理っていう本あの技術同人誌を書いたのは2年前か2年ちょっと前なんです けども年ですごいすげーすげー興味があるとでその本を書いた 元ネタっていうのがあってわーんっていうプログラムを僕は実際に書いて gpl でねオープンソースで公開してたんですね もうずっと昔にっていうのもあってあのすごく興味はいうのは引っかかったその1で引っかかった その2ねディープラーニング技術を使ってこういうアプローチをしているという意味ではこの 前継 i フォーラムをオーバーラップあるねっていう話 で何やら革新的らしいっていう話なんだけどもあんねカンパーフェクトじゃないけどもある程度のことは僕んとか他の世間のプログラム ね耳コピヘルプソフトみたいなの気並みたくさんありますし 今は8エイプルトンとかでもあのトランスクリプションというかあのミディに変換できるよね内部でね 精度性能はワンの方が上だと思いますけどなんでね そこらへんで行ってあるのっていうのはだいたいが周波数解析をやってるんですねあのは音も fft 使って周波数解析やってもちろんそこに 一手間加えてねパワースペクトラムだけじゃなくてフェイズの情報も使ってちょっと あのやろうって下の方で少し喋りますがそういうのやってるんだけども それを超えるっていうかねそれよりも素晴らしいものがここでできるんだったら面白いなぁと思ってちょっとチェックしたいなと思ったっていう背景です で見てみました論文ね軽く軽くったってこれこれあの5ページの論文なんで こういう論文を読み慣れてない人は実は結構いい あの挑戦になるかもしれないんでおすすめおすすめするかなぁ あの悪くないと思いますよ分野こういう研究論文で8僕がさらっと読んだ まとめをさらっとしておきます間違いがあったら指摘してくださいあの識者の人多分いっぱいいっぱいいると思うんだって聞いたりね記事書くぐらい みんな注目してるやつだからね8 はいまとめますと何をやっているのかっていうのが痛いさらっと言うと オーディオシグナルがあります x っていう信号があってこれを解析したいとでこの一式っていうのは コンベンショナルな方法和音がやっているのもエッセンシャルにはこういうことをやっている つまりそのシグナルを ノイズは部位っていうのはノイズを表しているって言うんですけどノイズは置いといてあの 新創意であるねあの三角関数での和で 表現しましょうとフリー a 級数で表現しましょう禁止しましょうと いうことなんですね でその時のフリーパラメーターは新服あるファー新服と a 周波数にいっぱいがないんで各周波数って言ってほしいっていうのは物理やさん工学の人はもう女があって書くのかなぁ 工学の人の方が f って書くんだなぁにぃぱい f ってかね まあいや8そこはあの特にねピッチとか ミドル c a が440ヘルツだっていうとか言う時にはにパイ終わらないといけないとかなんか 定量的な話になるといろいろこう足を救われるんであのイライラするんですけどねあとフリーパラメーターは一層ね これサインサインとコサインの輪で書いてるんだったりそういらないですけども3カッカーする高校数学学び直したらわかりますけども ねサインコサインの係数で書かないであるファート各周波数新服あるファートファイで書くっていうパターンとサインのアンプリ中度とコサインの アンプリ中で書くっていうのは10日ですけどもするんこういうパラメーターでシグナルを禁止しましょうっていうのが古き良き 新創意である三角関数振動の重ね合わせでやりましょうって話です がこれのこのパラメーターを 数値最適手法で一生懸命フィッティングしようと思うとなかなか難しいとでこれまあ直感的にはそうそうだなって思いますよねと 具体的にあのタイムシリーズアナリシスっていうのはの ai の人とかはわかってるねあの見たことあるんでよくわかると思いますが 振動してるシグナルをその振動のすべてを含めてa 関数フィッティング所パラメータフィッティングしようと思うとねー オバフィッティングとかあのいろいろな問題が起こりうるっていうのはもうみんなわかってるし それのあの現れの表現の一つとしては8ターゲット目的関数オブジェクティブ関数ロックス関数を そういうパラメータスペースでプロットしたときにねあのローカルミニマムがいっぱいあって はまって出れないとかなかなか収束しないっていうような状況になってるんだよっていうのはこの論文でもグラフを表したのを使って書いてありました でまぁまぁそうなんですねだから8こういうパラメータをフィッティングっていうセンスで最適化問題のフレームワークで解こうと思うとなかなか 難しいねっていうのが問題意識としてはわかった それを克服する方法を見つけたっていうのがこの論文の主張らしいその方法とはって言って書いてあるんだけどまぁここにね 8いわゆるロス関数っていうか最適化問題の定式化としてここの論文で扱うのは素朴にね 素朴にターゲット関数と8予想フィッティング関数の 各時間ステップ n っていうのがこれ時間だと思えばいいんですけども各時間ステップでのさーの 2条を最初化するとミーンスクエアエラーじゃあスクエアじゃなくてね2条そのまんまで最小化するように パラメータを選びましょうとなってますが要するに各時間タイムで最初化しましょう 素朴な音最適化フィッティングしましょうっていう話ですけどもリストスクエア だけど今のこのサインコサインでフィッティングフリークエンシートフェイスとアンプリ中でフィッティング 立ちようと思うとうまくいかないこれをうまくいくようにするトリックは何かっていうと この sで呼ばれる複素数 z を導入して こういう風な関数を使ってモデル化してすれば あら不思議うまくあの最適化できるよっていうのが主張 この関数認識は何を難しそうなことが書いてあると思う人がいるかもしれないがということですが何の ことはない複素数 z のあのべき関数ですね n 上 z の n 上っていう関数あのものでフィッティングしをってただそれだけ だけど複素数なんでシグナルはリアルなんでえっとべきかん複素数のべき関数のリアルパートがシグナルですよっていう風にしましょう それをもうちょっとわかりやすく関連性を深くするために書き下すとって言うんでえっとはいえっと 右のようになるわけですね個産結局実質的なサイン個サインのあの 三角関数でフィッティングしていると同じやんっていう話ですけれども複素数を使うっていうのがポイントで複素数っていうのはそんなに直感的にあの 何も知らない人まあ多分わかんない話なんで解説しとくと 複素数のべき何条 z の2条3条4条っていうのは実関数のべき急すってビューンって発散するっていうみんな直感的に思う まあそれぐらいの話ですけれども複素数のべき急須っていうのは複素平面 ねあの複素数っていうのは副っていうことで実部と虚無っていう2つのコンポーネントがあるっていうまあ あの大雑把に言えば2次元ベクトルみたいなもんですけどもその 複素平面と呼ばれる2次元平面の上でべき急須っていうのは原点を中心の回転で表現されですね z の2条って言ったら実軸からの角度アーグアーギュメントって言います角度変角って言いますがこいつ が2倍なんですねに2条で大きさはリアルの n 上になるそれの表現がこのこの式ですねあーこれあれだ数式になってるからなんだ なのでこの3一番右側の式で書いてあるに8頭の部分を除いけば n っていうのが進行することによって8振動の成分が出てくるで実質 リアルのコサインフィッティングと似たようなことになるんで 同じがねって言ってるねただ ここにも論文に書いてあるように8じゃあいいじゃんこれでフィッティングして終わりなのっていうと数学的にはそんなはあのもののいい話ではないよってことが書いてあってまぁこれは 当たり前ですけども複素数っていうのは今あの簡単に言った 2次元ベクトルなの素朴に思っちゃいけなくて っていうのは8ね準拠数ねに g 2時間数の回の公式って皆さん知ってると思いますが i ってのがあってこの論文では工学者は j 点使うねあの 理由は多分あの僕が聞いた理由は愛っていうのは工学の人は電流で使うから あの避けて j っていうのを挙数単位使うみたいな話ありましたねよく知らないですけども 紛らわしいですけどねあのまあいや82次元 普通の線形2次元空間とは違うんそれは何かというと愛挙数を2乗するとリアルにいくっていうルールがはのせされなきゃいけないって いうことねより高速条件があのこれねすげー大雑把にここでのオーディエンスのあの範囲内でって いうことで不正確な8数学的にはね表現になっているかもしれないですけどもっていうの あの喋りますがそう余分な高速条件がかかるんですねあの 複素数の複素数関数つまり複素数を与えて複素数を返すっていう関数において関数だから 微分が定義されるしてほしいと思うわけですねスムーズであるっていうことを家庭してみたいなその時の条件を今言った 8巨数と巨数2乗するとリアルになるみたいな高速条件をきちんと考えるとある方程式を満たされ その成分が実部と居部がある特殊な条件を満たさないと8複素数が複素数を返すっていう枠内に 収まんないっていう話があってその条件っていうのがコシリマン方程式と呼ばれているとそれを満たす枠内で話が収まる 関数のことをあの生息関数と呼んで その世界ではなんかいろいろと素晴らしい性質が起こり得て 例えば難しい積分とかがですね値がね解析的に求まったりするんですよだからみんな大好きなんですけども 詳しいことはきちんと本を読んで教科書を読んでくださいって話ですがここでのポイントはえっとねこの 複素数 z を使ってあのパラメーターをだからこの z っていうのがパラメーターですよ係数ですよと この係数をフィッティングしろって言っただけであのすべていいのかっていうとみんな知ってるグレイデンディセントメソッドっていうのはターゲット関数ですねこのサンメーションの何とかの2乗っていうものを ロス関数としてこいつを今の場合は導入されたパラメーターである z で微分してその微分係数の反対の方向にパラメーターを動かしてロスがどんどん減るようにパラメーターを更新していきましょうっていうのがグレイディングレイディエンディセントメソッドなんだけども ちょっと待てと微分を計算するってできるのっていうのがつっかかるポイントですねっていう話ですね で困ったのかっていうと差にあらずでどうも 生息関数ではないけど 複素数で定義されるある種の関数任意の関数に対して 実質的なプラクティカルな微分操作っていうのを計算する手法っていうのがあってそれがあのねバーティンがウィルティンがー 月あるキュラスっていうものがありますよって論文に書いてありますこの論文に書いてあります でね僕全然こんなのを知らないんでググったらウィキペディアありますねであとa とそうウィキペディアにビルティンが微分っていうのはこういう風に定義されるって書いた で論文の中にもあのウィルティンがカルクラスで8こういう今の場合は なんでこれ生息関数じゃないんですかっていうとこのリアル実部を取り出すっていう部分が問題なんですね あのべき給べき関数は別に生息なんですよなけど実部を取り出すっていうのは問題を引き起こしていて困ったっていうことの フォーマルな草数のあの カルキュラスが使えないっていう話なんだけどそういう時に使えるのがウィルティンがですよって言ってこの論文がリファーされたね プレプリがね2009年でcr カルキュラスってあってコンプレックスから多分リアルへのマッピング関数に関する 微分操作のシステマティックに行うもののまとめ教科書的なものをプレプリに置いてあるんだ と思います最初の方だけ読んでああなんかあの上に書いてるね普通の副操数の話にとは違うんだよみたいなのがとか いたってあそういうそういう面倒くさい話なのねと思って思いましたあの詳しく知りたい人が読んで後でわかったら僕に教えてください適当に流してますが8でわかったとじゃああの 実質的にねあのこの関数で禁じされたロス関数を最小化するっていうプロシージャーを組めばいいんだろうと じゃあ何言ってここで定義されたちょっと変わったウィルティンが微分っていうのを自分でコーディングしなきゃいけないのって思いますよね それじゃあなんかね誰かのあの白紙論文白紙論文の課題としてじゃあ丸々君やってみたいな話なのかっていうと そんなことはないと実はパイトーチは副操数型がもう定義されてるんですね統治点差ね でそこのページ見に行くと副操数型統治点差の副操数型のね パイトーチっていうのは微分オートグラットって自動微分計算の塊のライブラリーですからね要するにそれが本質で d プランニングの学習が全部できるって話なのでコンプレックス型が定義されているっていうことはそいつの微分も実装されてるわけですね でこのページ見に行くとねパイトーチサポートオートグラット4コンプレックステンサーズでグレイディエントコングレイディエントはコンピューティグレイディエントコンピューティーイース計算されるグレイディエントは コンジュゲートウィンいうウィルティンがデリバティブスで計算されるよと ねそれっていうのはこの論文で書かれているこれがコンジュゲートデリバティですね z のコンプレックスコンジュゲートの変微分はウィルティンガーの微分 を使うとなのかなこういうふうに成分でかけてこれはこういうふうにかけるでしょ この仕組みがもう愛当地の中には組み込む実装済みだと愛当地のページに書いてある なんだとじゃあ普通に何も気にせずにコンプレックス型でモデル関数を作ってロス関数を計算して オートグラットロスステップってやればもうそれで終わりかっていう話らしいんですね で実際に本当と思ってでこの著者の人が提供している github のページ見に行きますとそうすると今言ったようにパイ当地にはオートグラットも全部入っているから っていうんでこれがうまくいかない例ねこれあのスクショですあのギットハブのサイトに説明しちゃっ たんでポイントのところはですねどこを見ればいいかっていうとあここだ 4ステップインレインジ50005千ステップ回しますの次にプレディクティブとシグナルイコール統治個サイン フリクエンシーかける n っていう式がありますこれが8論文の式1ですね個サインの 個サインのシグナルで予想しましょうかこれ実感する こうするとうまくいかないとうまくいかないこれが結果ですけども 8ターゲット 周波数は1 4分の1なんだけどもでえっとスタートのフリクエンシーは1から始めてんだけども 全然0.254分の1になりませんねってこれダメな場合ねあのローカルミニマムにハマってるんですね これを同じようにパイ当地で計算するんだけども コンプレックスオシレイターっていう関数をこのあのライブラリーっていうかなに入ってる 中身は単にあのコンプレックス型の統治テンサーの会場で実装されているものにいろいろフェイル 政府がつきついているものですけどもそうするとここを変えただけでスタート 周波数が1からスタートしてるんだけども85000ステップ後には0.25と収束しているよと真の値に すごいだろうと実際にあのグレイディエンディセントステップっていうのは標準的な形でね オプティマイザーまずゼログラッドクリアしといてロスを計算しといて8ステップオプティマイザーステップを回すそれだけなので もうすぐ使えるやんねっ あの論文にコメントがありますがあとこの式を見ればわかるんですけども8この式っていうのはね この式ねz 複素数なんだけども複素数ってことは 胸部と実部があるんだけども8それの角度ね変角 アングル z と大きさ2次元極座標だと思うんですけどもね 複数数ねその頭にその 大きさ中心からの距離の n 上っていうファクターがあるこの n っていうのは 0123456って1000とか2000とかなるんですがねすぐわかるようにz の大きさが1よりもでかかったらすぐに発散しちゃうんねなんでこいつがフィッティングしているのは 周波数部分だけだと思わない だから本当は理想的にはこの z は大きさ1っていう高速条件をかけてアングルの部分に関してだけ本当はねあの多分最適化したいんだろうなぁと思いますがいう注意が必要だと
...more
View all episodesView all episodes
Download on the App Store

HELLO! AI ポッドキャストBy Kengo Ichiki