June 28, 2023

S35E03 （前座）音のはなし、コーディング編

23 minutes

ZENKEI AI ポッドキャスト、シーズン３５は２０２２年１１月３０日に開催した ZOOMライブの模様です。
この日のテーマは「最近の宿題〜数理クイズ解答編ほか」でした。

エピソード３は、前座その２「音のはなし、コーディング編」です。

当日の市來の発表資料

このブラウザでは再生できません。

ビデオ見れる人はこちらからご覧ください。

（以下は、OpenAI の Whisper を使って文字起こししたものを修正したものです。）

** 注：以下は未編集の草稿です **

こんにちは。ZENKEI AI FORUMです。

はい。こんばんはです。2022年11月30日。11月最後ですね、今日ね。 ZENKEI AI FORUM です。

分かった分かったとそういう注意は取り入れずに脇に置いといて実際にやってみようっていうのをやってみたということで何にも外部ライブラリを使う必要はないですだから本質的にはトーチだけインポートすればいいと今ここでサウンドファイルっていうのを入れてますのは解析するための音ネタとして音声ファイルをローカルに置いてあるやつを南パイのアレイに読み込むためのライブラリとして使ってますこれちなみに元は僕とかも使ってたことがあるlibsndファイルっていう古き良きCのライブラリですけども音楽ファイルを読み込む部分それのラッパーですね Pythonのラッパーにすぎませんそれで音楽のファイルを読み込んどいてステレオなんだけども片方のチャンネルだけにフォーカスして今のアルゴリズム実際に複素数のオシレーターでその複素数Zっていうパラメーターを最適化するっていうフレームワークで実際にこのシグナルをどれぐらいいけるのか実際にやってみようってやってみたと結果ですねシグナルの幅は4096ステップをターゲットにして最適化ループを回すとロスがミーンスクエアロス使ってますが 0.024までここはいったかなちなみにサイクとしてですね Zだけ Zは言っているようにさっきも言ったように振動部分がZで表現されていて振幅の部分ねアンプリチュードの部分は Zのほうはできれば 1近くに収まってほしいみたいな話でしたねっていうことなんでファクターAっていうのをかけたものをフィッティングしろっていう問題にしてますだからパラメーターZとパラメーターAっていうのがあるとこいつでフリクエンシーをプレディクションを作ってシグナルの設定はここに書いてあるな A倍してるんですね元のこのライブラリーっていうかこのプログラムが提供してるこれ素朴に複数のべきでリアルパートを覗いてるっていう式そのままを実装してるわけですねそれに A倍してAっていうパラメーターも含めて最適化してるっていうフレームワークでそのオシレーターの数を今2個準備してフィッティングしろっていう問題で問題を解いて今各ステップでエスティメートされたフリクエンシーのオート明瞭周波数とそのアンプリチュードのパラメーターを表示するようにしてます 5000ステップいったらロスが0.024まで下がったとそうやってシンセサイズされたシグナルとオリジナルシグナルをプロットしたものはこれで青がターゲットのシグナルでオレンジがこの2つのオシレーターだけでフィッティングした結果結構合ってると言えば合ってるのでもオシレーター2つだから高々知れてるんで今度は4世でオシレーター4つで同じプログラムを使ってフィッティングさせたらっていったらもうちょっと精度っていうかロスが落ちてこんな感じになったふむふむとじゃあボイスを6まで増やしたらどうなるって言ったらロスが0.007 まで落ちてここら辺ぐらいまでできてでもよく見るとフリクエンシー 6つオシレーター6つなんだけどもアンプリチュードはマイナスのやつとか出てるねこれなんか僕適当に上にaかけてるだけとかって言うんでもしかしたら絶対値とかしたほうがいい 2乗とかにしたほうがいいのいいやと思って実験なんでこれでいいやと思ってしますが大体音フリクエンシーが鍵盤のミディーノートからどの音が鳴ってるっていうのを取り出してるっていう感じですけどもそれなりに今ここで聞いてる音は大体取れてるんかなっていう気はしてるしてますがここに書いてあるんですけどこれもうCPUタイム測ってるんですが 5000ステップ違う5万ステップ回してやっとこれぐらいのロスになるんですが 3分かかってるんだね最適化一応このマシンは2080が乗ってんだっけそれなりにGPU乗ってるマシンで走らしてるんだけども 4000サンプリングに対しての解析に3分かかるちょっと実用的じゃないかなっていう気がしてるついでなのでこれって音楽の演奏ファイル 4分ぐらいのやつなんだけども時間を順繰りにシフトしながら各セグメントで解析して解析結果を出すっていう風にプログラムを書いたやつ拡張したものをこれで結果こういう風になってますがこの時は収束する条件が0.0001かなんか収束条件つけて回すっていう感じで先に進めるようにしたいんだけどもこれ一晩ぐらい回してまだ終わってなかったんでどっちでも止めちゃいましたけども抽出されてる音自体の評価もちょっと時間がなくてまだ評価できるピアノとかで弾いてないんで後で評価してこれまたフォローアップできたらしたいと思いますが原理的にはなんかできてるらしいがさっきも言ったようにねフラクティカルに耳コピっていうセンスで言ってこれってブレイクスルーかっていうとなんか違うなっていう気が今のところ僕はしてます遅いってことねあとそうだからリアルタイムでトランスクリプションをすぐにオーディオからミディに変換するとかっていうのは夢のまた夢みたいな感じでここの文脈でロングの頭とかにイントロダクションに背景とか説明当然してありますよねそこになんだっけディファレンシャルDSPだっけDDSPこれねディファレンシャボーディジタルシグナルプロセッシングDDSPのフレームワークでオシレーターの近似が難しいんでそこはなかなか難しかったんだけどもこれが助けてくれるよみたいな話があるらしいんだけどもDDSPっていうのはこういうアプローチだったら結構今はめちゃくちゃ遅いのかなっていう気がしてよくわかんない僕は背景知らないので詳しい人とかですねいや僕の言ってること間違ってるよっていうのがあったらぜひ教えてほしいな応用自体は僕この辺にすごく興味があるんで教えて詳しい人教えてほしいですっていう論文を読みましたこれがどういうものかチェックしておきたいなと思った話でしたでついでにそんな人のものにケチをつけるんだったらあなたはどうなのっていう部分ねさっき言ったようにあの音声ファイルから周波数を取り出すっていうタスクは僕はもう長年やってるっていうかやり続けてるわけじゃなくて20年以上前 30年前にガーッとやってプログラムにしてその後も放置してるって感じなんだけどお手並み拝見っていうのはあれだね音楽と数理の中の一番最後にもあったねあのその時はディープラーニングでトランスクリプションやりますっていうgoogle のマジェンタティームのモデルと対決してたねあれはこういうアプローチとは違くてもうエンドとエンドの学習をやろうとしてるのはなんかあれ詳しく見てないんだけどねあれのあの後の発展とかどうなってるんですかねまあいいやそういうことで僕のプログラム和音は古き良きフリクエンシードメインでのいわゆるスペクトログラムからピークをピックアップしてその周波数が何っていうのを読み出してるだけって言えばそれだけのあの手法で音を取り出すっていうアプローチなんですけどもそれがを C で書いたんだけどね FFT はFFTW っていう MIT のライブラリを使ってましたけども Python でアルゴリズムね書いてみようとっていうのは上でサンプルでサウンドファイルっていうので Python に普通にナンパイアレイでペンって読み込めるたんでやってみようと思ってやってみましたそれも紹介するしますでねまずFFT はどうしようかとファイルの読み込みはとりあえずサウンドファイル使えばいいってのがあったけどFFTどうしようかと思ったらナンパイにも入ってるねなんでもう何も考えずにナンパイを使いましょうナンパイのFFT使いましょうただFFT はそれぞれきちんとあの抑えとかないと足を救われるのであとライブラリによって癖があるからねまずそこを抑えとこうっていうんでナンパイのFFTを変換して逆変換してきちんとまず元に戻っていることを確認するところから始めるとすげーエンジニアっぽいねしましたこれねあの青い線の上にオレンジ色のドットをプロットしてきちんとあの元に戻っていることを確認しましたFFT は再起きちんと元に戻るっていうのが非常に重要なポイントですからねはいっていうことでそれを確認できたかじゃあこのFFTを使ってフリクエンシーアナリシスをするための何をするかというとパワースペクトルを計算する必要があるパワー計算しようって言ってもうナンパイでね二乗を計算すればパワーになるし変格っていうかねあのアングル取ればこれちなみに FFTあるあるですけども上の話にもあったよねあの複素数の話っていうのはFFTが一番効率的にあの実装できるのは複素数複素数のパターンなんですねでえっとリアルのシグナルをFFTに使おうと思ったらリアルっていうのは複素数のセンスで言うとリアルだけに信号があってイマジナリパートが全部ゼロっていうデータを突っ込めば普通に処理できるんだけどもメモリーも無駄だし計算も無駄だねっていうのがあってそこを効率化しようと思ったらサイン変換コサイン変換っていうので効率的にやるっていうのがあるんだけども応援にしてバグがね処理が失敗しちゃってとかあるんで僕とかは不合的プログラマーのセンスですねリアル実関数は使ってるけども大概普通にコンプレックスのFFTを使いまくってるんですけども注意が必要でフリクエンシービンね配列にあのフリクエンシーがアサインされますがゼロはゼロフリクエンシーが入ってるんだけどもでーって言って周期シグナルを扱うんだけども真ん中まで行くとネガティブにフリクエンシーが飛んでネガティブの最大からグーッとゼロに戻っていくっていうような配列の仕方をするそうしないとそういうふうなメモリー配列にしないとFFTの効率的な計算っていうのはうまく実装できないんでそういうふうになっているそこだけ注意が必要だけどもあのっていうことですねんで計算したの上がえっとパワースペクトラムを普通にえっとノーマルプロットしたものでしたがフェイズスペクトラムっていうのかなフェイズの方ですねだから普通は普通はっていうかなあのコンプレックスだったらリアルケースと複素ケースが出るんだけどもそれをアンプリチュードとえっとアングル変革にしたものっていう風に言ったりですねでえっとアンプリチュードの方のパワーをログログプロットで普通するように計算したものはこれですとこういうシグナルが実際にえっと例えば4000のサンプルからスペクトル周波数を取り出そうと思った時に解析するターゲットっていうのはこういう状況になっているで赤でプロットしたのが何かっていうとこれオクターブをプロットしたんですねえっとどの音ドレミファソラシドの道の音をえっとミドル c が c 4でカウントして43210からプロットしていると思うな c 0 c 1 c 2 c 3 c 4 c 5 c 6c 7 c 8 1オクターブが高田がこの範囲なんねこれログプロットですね音の 1オクターブとかっていうのはログスケールで均等割が平均率ねっていう世界になって人間の耳っていうものはこういうふうにあの周波数を近くするんですけども皆さんご承知の通りで1オクターブの中にはいわゆる僕たちが普通音楽として評価する平均率っていうのは1オクターブを12等分してるんですねどうどうシャープでレイシャープ3点点点12個12音階あるこれ見たらわかりますが c 0から c 1の間に本当はゼロはあれかピアノはどっから始まるんだでも c 1この辺の日下の音っていうのは1オクターブの中に本当はドレミファソラシド12コキーがあるはずなのに鍵盤のキーがあるはずなのに上見たらね点が一つしかないと123しかないとかパンないよねこれで周波数をピアノの鍵盤の音をピックアップしろっていうのは特に低音の領域よね無理に決まっとるんですねっていうんでまぁ大変やねって話なんですけどそこに対して8は音はですねあのプログラムはあのいそうねあれちょっと待ってあその話はまだ次だこれまだ確認作業あっていわゆるねパイソンで1を実装しようと思うあのエンジニアリング的なことやってるんですけどもここだ8 平穏の分解の非常に悪いんですねっていうのは fft っていうか普通のフリーあの風鈴変換っていうのは周波数のあのたくさんの周波数の重ね合わせでシグナルを再再現しましょうっていうのはエッセンスは同じなんですけども周波数を線形に分割してるんですねだけどさっきも言ってるように人間の耳っていうのは周波数はログで近くするのでその結果何が起きるかっていうと低音領域は fft の分解のはすごく大雑把になるし高音の部分はすんごい細かく人間の耳が近くできないような細かいことまで区別して処理しているみたいな不一致が起きてるんですねねえ耳コピの話で困るのはfft のこのシグナルが高いって言ったしシグナルが変番のどこに一致してしてますかっていう部分でずれちゃうのが困るわけですねでそれを精度を上げるあの fft の感覚を細かくするっていうのは時間を長く取れば分解のが上がるんですけどもあのその分時間の反応が遅くなるわけねなんでいたしかしなんでその他の方法で情報をうまく活用しなきゃいけないっていう意味でフェイスの情報を普段使わない奴を使って周波数の補正に入れちゃえっていう facebook オーダーの8アイディアがあってそれを実装してますとそれは僕的にはあのきちんと定量的に検証してませんがかなり改善されているというふうに思います感覚的に耳利きいた範囲でそれを実装したのこの辺の話でよしたとでパイパイソン版は音を実際に a 解析してみましたで今回 8ね新しい試みっていうかオリジナルプログラムのワンは8 オーディオファイルを入力にして出力はミディファイル音符ファイルを出すようにしてるんだけどもパイソン版は今今回は8さっきのサンプルで作ったあのシンセサイズしてるのねあのサイン派を重ね合わせてオーディオファイルにしてあのターゲット関数とマッチしてるマッチしないっていうのをプロットしたようにシンセサイズしてるの音を作り出してるんですよそれを出力してみようということをしていてですねでかい方の強度が強い方の方からえっとボイスを8個取り出してシンセサイズしたオーディオファイルっていうのを作ってみたこれ新しい心で僕僕の中でねあのちょっと再生しますエロねオリジナルはねあのみんな研究検索してくださいビルエバンスのeverything i love っていうえっとハウマイハートシングスっていうアルバムに入ってるやつですあのググれば出てきますそれの8は音であの解析した a 8ボイスシンセサイズバージョンです企業黄色んん持ったんんんワンmebenっていう今のはテーマヘッドの部分でしたけども音は確実に取れてるねなので後解析結果とか後でどれぐらい取れているのかね僕はコードが取りたいのでそこは取れているのかどうかっていうのを確認したいなと思ってるんですけどもえっと再生してみている範囲においては結構音取れてるなぁと思ってるんでこれ後で解析してみようと思ってますはいっていうのが今日の音ネタでした音ネタでした結構長くなった8時になっさあということで今日のメイン数理クイズ回答編いこうかなえちゃん森さん久しぶりに来ていただきましたありがとうございましたあのまたねをアーレンジはあるんですご無沙汰してます忙しいあーちょっと忙しかったんですけど入ってきたんではいはいあのまた 8今のところでもコメントあればあのコメントタイムにするけどもなければ後でまとめてでもいいけどもどうしましょうああそうですねちょっと途中で入ったんではいの数のところから入っちまってあげるわかりましたしたらあの全体の終わりね今8時だからあの口前にもう1回あの呼びかけてあの数理クイズ回答編についてコメントをしてもらおうかなと思いますのでよろしくお願いしますはいはい見てないですけどすいません大丈夫ですあの話してる範囲でいいですっていうかわかんない

...more

View all episodes

By Kengo Ichiki

June 28, 2023

S35E03 （前座）音のはなし、コーディング編

23 minutes

当日の市來の発表資料

...more

Share S35E03 （前座）音のはなし、コーディング編

Sign up to save your podcasts

S35E03 （前座）音のはなし、コーディング編

S35E03 （前座）音のはなし、コーディング編