NOMN: 時間的微細構造エンハンサー
NOMNは実際にオーディオに何をしているのですか?
デジタル再生はクリスタルにロックされたクロックの上で走り、そのタイミング安定性はいかなる自然音響源よりも桁違いに厳密である。クリスタルにも測定可能な位相雑音とジッターはある——その点を否定するつもりはない——しかし、それらの偏差はあらゆる物理音源が生み出す豊かな時間的変動と比べれば、消え入るほど小さく、統計的に無構造である。聴覚の自然史において、これほど時間的に剛直な音源はかつて存在しなかった。
NOMNは、自然源が持ち、グリッドにロックされた再生が持たない種類の変動を導入する。ランダムノイズとしてではなく、認識可能なエフェクトとしてでもなく、聴覚系が機械的ではなく自然なものとして読み取る、構造化された時間的パターニングとして。
これは結局、進化したトレモロや凝ったコーラスではないのですか?
新しいのは、それを駆動するものだ。
トレモロの制御信号は2パラメータのLFOだ。コーラスは4〜6パラメータのLFO。Humanizerプラグインはフィルタリングされたランダムノイズ。テープ・エミュレーションは、ヴィンテージ機材の実測ワウ/フラッター・スペクトルに合うように整形されたノイズ。これらはすべて内容に対して盲目(content-blind)であり、いずれも身体から建模されたものではない。それらはヴィンテージ機材へのノスタルジアから建模されている。
NOMNのモジュレーションは内容適応的(content-adaptive)であり、自然源の変動と統計的に整合している。これは、どんなに巧妙にパラメータをいじってもLFOからは得られない。正しいアナロジーは「進化したトレモロ」ではなく、サイン波オシレーターとサンプリングされた楽器の違いだ。両者とも周期的なオーディオを生み出す。一方はシンセに聴こえ、もう一方はヴァイオリンに聴こえる——なぜなら、それらを駆動する信号が、自然源由来の構造を桁違いに異なる量で符号化しているからだ。プリミティブは同じ、駆動信号は根本的に異なる。
音楽認知研究は、知覚可能な最小のタイミング差は10〜50ms程度だと言っています。それはつまり、NOMNのマイクロ秒スケールのモジュレーションは可聴性/「Just Noticeable Difference」(JND)閾値以下で、つまり法外に高価なスピーカーケーブルのような根拠の薄いオーディオファイル流のナンセンスではないか?という意味になりませんか?
まず、JND文献が実際に測っているものについて。10〜50ms範囲の音楽的タイミングに対するJND(just-noticeable-difference)閾値は、強制選択型の認知タスクにおいて、リスナーがあるノートが別のノートに対してどれだけずれれば「ずれた」と意識的に同定できるかを測っている。これが伝えるのは、タイミングがいつ違いとして*ラベル可能*になるかだ。聴覚系が時間を処理する分解能や、我々が感覚するものについては何も語っていない。
聴覚系の実際の時間分解能は、音楽的JNDよりおよそ三〜四桁細かい。最も確立された二つの証拠系統:
両耳経路は、両耳間時間差を約10マイクロ秒まで分解する。Klumpp & Eady(1956, J. Acoust. Soc. Am. 28: 859-860)は、10名のリスナーにおいて、帯域制限ノイズで9μs、1000Hz純音で11μsの平均ITD弁別閾値を測定した。これらの閾値は約70年にわたり独立に再現されている。Brughera, Dunai & Hartmann(2013, J. Acoust. Soc. Am. 133: 2839-2855)は、現代的手法を用いて700〜1000Hzで10μsをわずかに上回る閾値を確認した。最適条件下では、最小の測定閾値は単一マイクロ秒の領域に近づく。メカニズムも十分理解されている:内側上オリーブの神経細胞が、両耳それぞれからの位相同期スパイクに対して一致検出を行う。通常遭遇する最大のITDは——音源が真横にある場合の——両耳間距離によって決まる約600〜700μsである(Mills 1958, J. Acoust. Soc. Am. 30: 237-246)。リスナーは正中線付近で約1度の角度差を確実に分解する。この研究の大半がすでに70年以上前のものであることに注目してほしい。
単耳経路は、聴覚神経科学が **temporal fine structure(時間的微細構造、TFS)** と呼ぶもの——各蝸牛フィルタ帯域内の急速な波形振動——を介して音のサブミリ秒構造を符号化する。これはその上に重畳される、より緩やかな包絡(ENV)変調とは区別される(Moore 2008, J. Assoc. Res. Otolaryngol. 9: 399-406、定番のレビュー)。TFS情報は、低周波成分について数キロヘルツまで刺激波形の個々のサイクルに位相同期する聴神経線維スパイクのタイミングに担われる。これは仮説でもなければ論争中の主張でもなく、聴覚末梢が時間をどう符号化するかの標準モデルであり、Joris, Schreiner & Rees(2004, Physiological Reviews 84: 541-577)に包括的にレビューされている。
TFSは聴覚系が複合音の音高知覚、変動する背景雑音中での音声知覚、複雑な音響環境における音源分離のために用いるものだ。Smith, Delgutte & Oxenham(2002, Nature 416: 87-90)は、ある信号の包絡を別の信号のTFSと組み合わせた「キメラ」音を構成することで、これを直接的に示した。リスナーは包絡ではなくTFSに基づいて音高と音源位置を確実に知覚した。TFSはライブの音、両耳聴取、あるいは特定の再生状況に限定されたものではない。蝸牛が受け取るあらゆるもの——録音音楽を再生するヘッドフォンやスピーカーの出力も含む——に対して作用する。録音を聴くとき、オーディオの時間的微細構造は、サブミリ秒の分解能であなたの聴神経のスパイクタイミングに符号化されている。この処理は意識的気づきの閾値以下で連続的に起こっており、それこそが音楽的JND研究がそれを測らない理由である。JNDはリスナーが報告できるものを測る。聴覚系がやっていることを測るのではない。
より重要な論点。**正しい問いは、リスナーが管理された試行で二つのオーディオファイルをA/B弁別できるかどうかではない。正しい問いは、人間の消費のためにオーディオを生成する技術が、それが奉仕すべき感覚系の分解能で動作するべきかどうかだ。**
オーディオ産業はこの問いに何十年も一貫した答えを出してきた。スタジオが96kHzや192kHzで録音するのは、リスナーがあらゆるトラックでそれらと48kHzを確実にA/B弁別できるからではなく、システムの分解能側の末端でプロダクション・チェーンが歪みを混入させるべきではないからだ。マスタリング・エンジニアは、古典的な可聴性閾値をはるかに下回るレベルで動作するワードクロックのジッター仕様を執拗に追い込むが、それはクロックがボトルネックになることを望まないからだ。プロのオーディオ・インターフェースはサブミリ秒のラウンドトリップ・レイテンシで競い合う。原理は一貫している:人間と接するオーディオ技術は感覚のフロアを下回るのではなく、上回って動作すべきだ。
NOMNはこの系譜に位置する。クリスタル・ロックされた再生タイミングは、聴覚の自然史において前例のないものだ。これほど時間的変動が少ない音源はかつて存在しなかった。問いは、リスナーがトラックごとの強制選択テストで違いを言語化できるかではない。問いは、何十億時間もの人間の聴取に向けられる、スケールしたAI生成オーディオが、感覚系が実際に使う時間分解能と一致すべきかどうかだ。我々は、すべきだと考える。オーディオ産業は、サンプリングレート、ビット深度、ジッター、レイテンシ、周波数応答、歪みなど、再生チェーンの他のすべての次元について、歴史的に一貫してこの原理に同意してきた。意識的なラベル付け閾値の下に関連する変動があるという理由だけで、時間的微細構造の次元を唯一の例外として扱うのは整合性を欠く。
もし可聴性批判が成立するなら——意識的JND以下のものすべてが知覚的に無関係であるなら——リスナーは音源を定位できず、群衆の中で声を区別できず、本物のヴァイオリンと同じスピーカーで再生されるサンプリングされたヴァイオリンを聴き分けられないはずだ。これらすべての判断は、音楽的JNDよりはるかに細かい時間分解能に依存している。
では、いったいtemporal fine structureとは何か?そしてNOMNは確立されたTFS文献に対してどこに位置するのか?
TFS枠組みは過去二十年にわたり、聴覚科学文献の中で広範に発展してきた。Moore(2008, J. Assoc. Res. Otolaryngol. 9: 399-406)は、音高知覚、マスキング、音声知覚におけるTFSの役割を扱う標準的なレビューだ。Smith, Delgutte & Oxenham(2002, Nature 416: 87-90)は、ある信号の包絡を別の信号のTFSと組み合わせて構築した「キメラ」音を用い、静寂下での音声認識では包絡に依存する一方、音高と音源定位ではTFSに依存することを示した。その後の研究(Lorenzi et al. 2006, PNAS 103: 18866-18869; Hopkins & Moore 2009, J. Acoust. Soc. Am. 125: 442-446)は、TFS感度が雑音環境下での音声知覚に決定的であり、難聴者のTFS感度低下が雑音下で音声を理解しにくい主要因であることを示している。
これはNOMNにとって二つの点で重要だ。
第一に、TFSはNOMNが作用する対象のための確立された技術語彙である。NOMNが導入する時間的微細構造は、この分野の技術言語で言えば、オーディオ信号のtemporal fine structureに対するモジュレーションである。我々は新しい知覚カテゴリを発明しているのではない。聴覚科学文献のよく地図化された領域で作業している。
第二に、既存のTFS研究は主として*失われるもの*に焦点を当てている。難聴者がいかにしてTFS感度を失うか、人工内耳がいかにしてTFS情報を届けるのに苦労するか、加齢がいかにしてTFS処理を退行させるか。NOMNはこの問いを反対側から扱う:TFS処理が無傷のリスナーに対して、よく設計された再生技術はどんな種類のTFS構造を提示すべきか?聴覚科学コミュニティは正常聴者にとってTFSがいかに重要であるかを20年かけて記録してきた。オーディオ産業は、再生技術設計に関する対応する結論をまだ引き出していない。NOMNはその結論の一つの応用である。
範囲についての注記。TFSにおける「fine structure」は、聴覚フィルタ帯域内の急速なキャリア発振を指し、数キロヘルツまでの位相同期を介してサブミリ秒分解能で符号化されている。NOMNのモジュレーションはマイクロ秒からミリ秒のスケール幅にわたり、オーディオ内容そのものの時間構造を変調する。両者とも聴覚系が細粒度の時間処理を行う時間領域に位置している。マーケティング上は「temporal microstructure(時間的微細構造)」というより広い表現を使う——これは、TFS研究者がヒルベルト分解で技術的に測る特定の信号処理量を直接操作していると主張しないためだ——が、我々が標的としている知覚メカニズムは、TFS研究が2000年代初頭から記録してきたものと同じである。
主張していないことについての注記。我々は、デジタルオーディオに時間的微細構造が欠けていると主張しているのでも、NOMNがフォーマットが失った何かを復元すると主張しているのでもない。PCMの録音は、信号の帯域内で十分に解像された内容についてのfine structureを担っている。NOMNの主張はそれより狭く異なる:クロックにロックされた再生は、そこにあるfine structureを完全な時間的定常性とともに提示する——いかなる自然音響源も持たない定常性である。NOMNは構造化された時間変動を再生に導入する。ソースファイルがどれほどのfine structureの細部を含んでいるかには無関係——なぜならそれは細部を加え戻すのではなく、信号の時間的振る舞いを変調するからだ。
サブJNDのタイミング差が問題でないなら、なぜオーディオ産業はレイテンシ最小化にあれほどの労力を注ぐのか?
DAWで録音する音楽家は皆、ラウンドトリップ・レイテンシをできるだけ低く保つために、オーディオ・バッファ・サイズを調整している。プロのオーディオ・インターフェースはサブミリ秒のラウンドトリップ・レイテンシで競い合っている。Belaプラットフォームは、デジタル楽器のためにアクション・トゥ・サウンドのサブミリ秒レイテンシを達成する目的で特別に作られた(McPherson, Jack & Moro 2016, Proc. NIME)。なぜなら、一般的なプラットフォームの大半はプロの音楽家が必要とする目標を満たせないからだ。
音楽家が実際に感じるものについての査読済みエビデンスは明確だ。Jack, Mehrabi, Stockman & McPherson(2018, Music Perception 36: 109-128)は、プロのパーカッショニストとアマチュア音楽家を、0ms、10ms、10ms±3msジッター、20msのレイテンシ条件で制御したデジタル・パーカッション楽器でテストした。両グループとも、ゼロ・レイテンシを10ms+ジッター条件および20ms条件より有意に高品質と評価した。プロのパーカッショニストはアマチュアよりレイテンシに敏感で、追加レイテンシ下でタイミング・パフォーマンスに測定可能な変化を示した。Schmid et al.(2024, Proc. Mensch und Computer, ACM)は、37名のリスナーで追加オーディオ・レイテンシのJNDを測定し、ベース・レイテンシ64msにおいて平均27msのJNDを得た。音楽的に熟達した参加者は、より小さなマージンも確実に検出した。それ以前のアンサンブル研究は、実際の演奏で50msまでの非同期が発生すること(Rasch 1979, Acustica 43: 121-131)、プロのパーカッショニストはメトロノームに同期しているときでも10〜40msのタイミング・ジッターを示すこと(Dahl 2011, Music Perception 28: 491-503)を記録している。
アコースティック・ドラムは、スティックの接触からドラマーの耳に音が届くまで約2〜3msの自然な遅延がある——ドラムから頭までの距離を音速で割った値だ。これはドラマーの神経系が長年の練習を通じてキャリブレーションしてきたベースラインである。電子ドラム・モジュールが、その上にさらに5〜10msを乗せれば、プロのドラマーはそのキットを「鈍い」「切断されている」「ラグい」と表現する。
ここで何が起きているかに注目してほしい。オーディオ産業は何十年もの間、**再生技術は意識的なA/B検出の分解能ではなく、感覚系が実際に使う時間分解能で動作すべきだ**という原理を受け入れてきた。意識的JNDがそうだからオーディオ・インターフェースは50msのレイテンシを目指すべきだ、と論じる人は誰もいない。産業がサブミリ秒を目指すのは、そこで人間と機械の相互作用が破綻するからだ。スタジオが高サンプルレートで録音するのは、プロダクション・チェーンがボトルネックにならないようにするためだ。ワードクロックが古典的可聴性以下のジッター水準で仕様化されるのも同じ理由だ。クロックがシステム内で最も低分解能の要素になることを望まないのだ。
これは正にNOMNが適用する原理だ。クリスタル・ロックされた再生は、いかなる自然音響源よりも桁違いに厳密な時間安定性を持つ。そのオーディオを消費する感覚系は、マイクロ秒スケールで時間を分解する。リスナーがA/Bテストで聴いているものを常に意識的にラベル付けできないという事実は、技術が感覚のフロア以下で動作すべきだということを意味しない。それは、オーディオ産業がサンプルレート、ビット深度、レイテンシ、ジッターにすでに適用している同じエンジニアリング規律を、時間的微細構造に対しても適用すべきだ、ということを意味する。
しかし、スピーカー・コーンと部屋はNOMNよりはるかに大きな時間的修正を導入する。それは効果を呑み込まないのか?
関連する違いは大きさではない。構造だ。
部屋やスピーカーによる畳み込みは内容に対して盲目で、定常的だ。所与の聴取位置に対して部屋のインパルス応答は固定されている。スネア・ヒットの残響と持続するヴォーカル・ノートの残響は同じ部屋処理を受ける。これは固定カーネルでの畳み込みだ——大きさは大きいが、内容に盲目で時間不変。
聴覚系は、直接経路の音源信号と残響反射を分離するための十分に記録された機構を持つ。基礎的な発見は先行効果(precedence effect)であり、Wallach, Newman & Rosenzweig(1949, American Journal of Psychology 62: 315-336)が初めて体系的に記述した。二つの同一の音が両耳に数ミリ秒以内で到来すると、リスナーはそれを、最初に到来する波面の位置に定位された一つの融合音として知覚し、後から到来する反射は知覚定位への寄与が強く抑制される。だからこそ残響のある部屋でスピーカーを定位できるのだ。脳は空間的手がかりを直接音に帰属させ、反射を環境として扱う。このメカニズムは、聴覚系が原始的なグルーピング手がかりを用いて入来音を環境的文脈とは別個の音源表現へと組織化する、より広い聴覚情景分析(Bregman, 1990, MIT Press)の枠組みへと拡張される。その後のレビュー(Litovsky et al. 1999, J. Acoust. Soc. Am. 106: 1633-1654; Brown et al. 2015, J. Acoust. Soc. Am. 137: 776-790)は、これが意識的気づきの下で動作する、連続的かつ自動的なプロセスであることを記録している。
聴覚系が*因子分解できない*もの、そして音源同定と自然さ判定のために多用するもの——それは基となる音源の固有のタイミング構造である。部屋はそこにあるものをぼやかせられる。そこにないものを足すことはできず、そこにあるものを引くこともできない。
端的に言えば:本物のヴァイオリンとサンプリングされたヴァイオリンを、同じ部屋・同じスピーカーで鳴らした場合、リスナーは長時間の聴取で典型的に区別する。音響チェーンは同一だ。違いは、スピーカーに到達する前に信号に符号化されているため、チェーンを生き延びる音源レベルの時間構造にある。
DACの再構成フィルタはどのみち高速タイミング変調を均してしまうのではないか?
はっきり述べておくべき一般原理:NOMNのモジュレーションは内容(content)であって、メタデータではない。オーディオを処理するものは何であれ、モジュレーションも一緒に処理する。オーディオを処理しないものは何であれ、モジュレーションに触れることはできない。攻撃すべき独立したチャネルは存在しない。同じ論理がスピーカー、部屋、リスナーのHRTF、外耳道にも当てはまる。すべて、オーディオ内容に対して適用される線形時不変な操作であり、いずれもモジュレーションを選択的に消すことはない。
低デプスのコーラスやフィルタ処理されたノイズでヴァリスピードを駆動すれば、同じことが実現できるのではないか?
違いは、聴覚系が異なる種類の変動に対して何をするかにある。LFO駆動のモジュレーションは周期的であり、聴覚系は意識的気づきの下で周期性を検出する。微妙な周期的モジュレーションは、なぜか説明できないにせよ「ぐらつき」や「エフェクト感」として読まれる。フィルタリングされたノイズによるモジュレーションは非周期的だが内容に盲目であり、これも聴覚系は自然源にとって異物として読む——なぜなら自然源は統計的に白色のタイミング変動を生み出さないからだ。自然なタイミング変動は特定の構造を持つ:人間の演奏で直接測定された長距離相関と内容相関。Hennig(2014, PNAS 111: 12974-12979)は、プロのドラム演奏におけるタイミング偏差が白色ノイズ統計ではなく長距離(1/f型)相関を示すことを記録した。これは、人間の運動パフォーマンスにおける時間構造に関するより広範な研究と整合する(Gilden, Thornton & Mallon 1995, Science 267: 1837-1839)。あなたのモジュレーションがこの構造に近づけば近づくほど、聴覚系がそれを「異物」とフラグする度合いは下がる。
NOMNのモジュレーションはその構造に整合している。低デプスのコーラスや1/fノイズはそうではない。
直接答える価値のあるより微妙な版の質問がある。十分に速い時間軸モジュレーションは、それを駆動する制御信号が何であれ、信号の時間的微細構造を変える。それはこの操作の物理学そのものであり、LFOにも、1/fノイズにも、NOMNにも当てはまる。しかし、TFSを変えることが自動的に有益なわけではない。聴覚系は、自然源の統計に整合するTFS変動と、そうでないTFS変動を区別する。周期的なモジュレーションはエフェクトとして読まれる。白色ノイズによるモジュレーションは誤動作として読まれる。自然なものとして読まれるのは、自然な時間的変動の統計構造を担うモジュレーションだけだ。ヴァリスピード・エンジンはメカニズムである。制御信号は、結果として得られるTFS修正が聴覚系の歓迎するものか、それともフラグするものかを決定する。メカニズムは汎用的だ。構造はそうではない。
これは以前に試されたことがあるのではないか?NOMNはMQAやC Waveのようなものではないのか?
C WaveはPCMが「非連続」であり、脳がこの非連続性を検出すると論じる。彼らの解決策は、「ギャップを埋める」一種のリバーブだ。我々はその診断を共有しない。PCM上で動作するリバーブ・アルゴリズムは依然としてPCMであり、Shannon-Nyquistは適切に帯域制限されたPCMがNyquist周波数まで連続波形と数学的に等価であることを保証する。デジタル信号に埋めるべきギャップは存在しない。我々はPCMの内部で何かを修復していると主張しているのではない。我々は、自然な音響源にはクリスタル・ロックされた再生にない時間的微細構造があると主張している——これは、サンプリング理論についての論争中の主張ではなく、自然な音源の物理的性質に立脚した、異なる主張である。
これらの取り組みから得られる最大の教訓:サンプリング理論と喧嘩しない、測れないものを主張しない、独立した測定を敵として扱わない。
ヒューマナイザー・プラグインとどう違うのか?
二つの違い。第一に、ヒューマナイザーは確率的な変動を加える。NOMNは自然源の統計に整合する構造化された変動を加える。ランダムは自然と同じではない。人間の運動タイミングについて記録された長距離相関構造(Gilden et al. 1995; Hennig 2014)は、ほとんどのヒューマナイザーが生み出す白色ノイズ分布とはカテゴリ的に異なり、聴覚系はその区別に反応する。
第二に、ヒューマナイザーはオーディオ・レンダリング前のMIDIイベントのタイミングに対して動作する。NOMNは信号レベルのオーディオに対して動作する。クオンタイズされたMIDIスネアに対するヒューマナイザーはヒットを動かす。NOMNはオーディオそのものの再生を変調する。異なる操作、異なる信号チェーン上の位置、異なる効果。ヒューマナイザーは完成したオーディオファイルをヒューマナイズできない。NOMNはできる。
時間的モジュレーションは可聴か?
「リスナーがNOMNを認識可能なエフェクトとして同定できるか」という意味で言っているなら、一般的に答えはノーであり、それが設計意図だ。可聴でないフランジャーは目的を果たしていないことになる。処理として可聴なNOMNは目的を果たしていないことになる。両者は対極の結果を目指している。
「リスナーは制御された試行でNOMN処理済みオーディオを未処理オーディオからA/B弁別できるか」という意味なら、それは経験的な問いだ。我々は適切で独立した事前登録された知覚研究で調査するつもりであり、結果を公表する。しかしそれは、技術が重要かどうか、追求や支持に値するかどうかを決める問いでもない。
関連する問いは、再生チェーンの他のすべての次元についてオーディオ産業が何十年も答えてきたものだ:技術は感覚系が実際に使う時間分解能で動作しているか?サンプリングレート、ビット深度、レイテンシ、ジッター、周波数応答について、産業は一貫してイエスと答えてきた。プロダクション・チェーンは感覚のフロアに合わせるべきで、意識的なA/B検出閾値に合わせるべきではない。我々は同じエンジニアリング規律を時間的微細構造に適用している。リスナーがトラック単位の強制選択テストで違いを言語化できるかどうかは、何十億時間もの人間の聴取に奉仕する技術が感覚分解能に合わせるべきかどうかとは別の問いである。
なぜNOMNという名前なのか?最後のNはサイレントNか?
ここで引用されている聴覚科学について、より詳しく読みたい場合はどこで読めますか?
INTERAURAL TIME DIFFERENCE THRESHOLDS
— Klumpp, R.G. & Eady, H.R. (1956). "Some Measurements of Interaural Time Difference Thresholds." Journal of the Acoustical Society of America 28(5): 859-860. The original measurement: 9μs threshold for band-limited noise, 11μs for 1000-Hz tone, 28μs for clicks (75% correct discrimination, ten listeners).
— Mills, A.W. (1958). "On the Minimum Audible Angle." Journal of the Acoustical Society of America 30(4): 237-246. Foundational measurement of angular acuity in sound localization (~1° near midline).
— Brughera, A., Dunai, L. & Hartmann, W.M. (2013). "Human interaural time difference thresholds for sine tones: The high-frequency limit." Journal of the Acoustical Society of America 133(5): 2839-2855. Modern confirmation of ~10μs thresholds for pure tones at mid-frequencies, with high-frequency cutoff around 1.4 kHz.
NEURAL CODING OF TEMPORAL STRUCTURE
— Joris, P.X., Schreiner, C.E. & Rees, A. (2004). "Neural Processing of Amplitude-Modulated Sounds." Physiological Reviews 84(2): 541-577. The standard review on how the auditory system encodes temporal modulation for source localization, identification, and parsing.
— Moore, B.C.J. (2008). "The role of temporal fine structure processing in pitch perception, masking, and speech perception for normal-hearing and hearing-impaired people." Journal of the Association for Research in Otolaryngology 9(4): 399-406. The canonical review of temporal fine structure (TFS) and its perceptual role.
— Smith, Z.M., Delgutte, B. & Oxenham, A.J. (2002). "Chimaeric sounds reveal dichotomies in auditory perception." Nature 416: 87-90. The foundational experimental demonstration that listeners rely on TFS for pitch and localization while ENV dominates speech recognition in quiet.
— Lorenzi, C., Gilbert, G., Carn, H., Garnier, S. & Moore, B.C.J. (2006). "Speech perception problems of the hearing impaired reflect inability to use temporal fine structure." Proceedings of the National Academy of Sciences 103: 18866-18869. Direct evidence for TFS's role in speech-in-noise perception.
SOURCE/ENVIRONMENT SEPARATION
— Wallach, H., Newman, E.B. & Rosenzweig, M.R. (1949). "The Precedence Effect in Sound Localization." American Journal of Psychology 62(3): 315-336. The foundational paper showing that listeners localize sounds based on first-arriving wavefront, suppressing reverberant reflections.
— Bregman, A.S. (1990). Auditory Scene Analysis: The Perceptual Organization of Sound. MIT Press. The standard reference text on how the auditory system organizes complex sound mixtures into source representations.
— Litovsky, R.Y., Colburn, H.S., Yost, W.A. & Guzman, S.J. (1999). "The Precedence Effect." Journal of the Acoustical Society of America 106(4): 1633-1654. Comprehensive review of the precedence effect and echo suppression literature.
LATENCY PERCEPTION AND MUSICAL PERFORMANCE
— Jack, R.H., Mehrabi, A., Stockman, T. & McPherson, A. (2018). "Action-sound Latency and the Perceived Quality of Digital Musical Instruments." Music Perception 36(1): 109-128. Professional percussionists rated 10ms±3ms jitter and 20ms latency conditions as significantly lower quality than zero latency.
— McPherson, A., Jack, R. & Moro, G. (2016). "Action-Sound Latency: Are Our Tools Fast Enough?" Proc. NIME 2016. Survey demonstrating most digital musical instrument platforms fail to meet sub-millisecond latency targets; motivates the Bela platform.
— Schmid, A., et al. (2024). "Measuring the Just Noticeable Difference for Audio Latency." Proc. Mensch und Computer 2024 (ACM). Mean JND of 27ms at 64ms base latency, with musically sophisticated listeners detecting smaller margins.
— Dahl, S. (2011). "Striking Movements: A Survey of Motion Analysis of Percussionists." Music Perception 28(5): 491-503. Documentation of percussionist timing variability.
NATURAL TIMING STATISTICS
— Hennig, H. (2014). "Synchronization in human musical rhythms and mutually interacting complex systems." Proceedings of the National Academy of Sciences 111(36): 12974-12979. Direct measurement of 1/f long-range correlations in professional drum performance timing.
— Gilden, D.L., Thornton, T. & Mallon, M.W. (1995). "1/f noise in human cognition." Science 267: 1837-1839. Broader finding of 1/f temporal structure across human cognitive and motor performance.
我々がこれらの研究を引用するのは、NOMNの知覚に関する主張が、聴覚科学コミュニティの残りの研究と同じ基盤の上に立つことを望むからだ。独立した測定と検証は、この分野が前進する仕方であり、我々もそこから免除されようとは思っていない。
人間の最速の感覚は聴覚であり、その差は10倍以上にもなる。人間は約10マイクロ秒の時間差を検出できる。今お読みのモニターが60hzでリフレッシュしているとすれば、それは耳が分解できる速度より1000倍以上遅い。
地球上のあらゆるデジタルオーディオソースには一つの共通する性質がある:自然界のいかなるものよりもはるかに安定したタイミングだ。DAW、デジタルシンセサイザー、ドラムマシン、サンプラー、ストリーミングオーディオ——すべてが設計上、時間的に厳密である。オーディオファイルは10MHz外部クロックを使ってますます厳格な安定性を追求する。「忠実度」の作業定義は、最小の周波数不安定性、最小のタイミング変動となってきた。
それと並行して、業界は50年かけてスペクトルの忠実度を最適化し、音楽の制作とリスニングのためのデジタルインフラを構築してきた——それが奉仕すべきシステム、すなわちリスナーの時間的感度より桁違いに低い精度で動作するインフラを。
自然界の音は時間的に剛直であることは決してない。あらゆるアコースティック楽器、あらゆる声、環境を抜ける風のすべてが、その生成の物理に起因する連続的なマイクロ秒スケールのタイミング変動を示す。これらの変動は不完全さではない——聴覚系が「生きている」と認識するものの一部である。すべてのオーディオ技術の要となるサブテクノロジーは、基礎となる周期性、すなわちクロックである。変調される電気周波数であれ、回転する蝋管であれ、レコード盤を刻むレースであれ、デジタル-アナログ変換器であれ、新たに作られた量子の論理構造をシステム全体で定量化し維持するための方法が常に存在する。そのクロックが劣化すれば、幻想は崩壊する:ゆっくりめくるパラパラ漫画のように、知覚のハックは失敗する。
レコードプレーヤーやアナログテープマシンは音が良いのではない——感触が良いのだ。それらは偶然にもランダムな時間変動を信号に導入するマイクロタイミングエンハンサーなのである。ターンテーブルやテープトランスポートの機械的不安定性が、時間領域における変動を周波数の不安定性と結合させて持ち込む。これはレコード盤、真空管、アナログ信号経路に莫大な金額を費やして人々が追い求める品質である——しかも多くの場合、何を聴いているのか名指しできないまま。なぜなら聴いているものはスペクトル的なものではなく、時間的なものだからだ。
NOMNはデジタルオーディオに時間的な生命を導入する。人間の知覚系の分解能で動作し、あらゆるオーディオストリームに人間的に構造化された、繰り返さないタイミング変動を導入する時間的微細構造エンハンスメント・システムである。
20世紀初頭、芸術家マルセル・デュシャンは、見かけ上同一に見える二つのものを隔てる差異——「inframince(アンフラマンス/極微差)」——という言葉を造った。同じ型から作られた二つの物体、同一でありながら同一でない、その隔たり。
NOMNは、生きた時間と機械的な時間とのあいだのその極微差(アンフラマンス)を取り上げ、それを操作可能なものへと変える。
--
## 仕組み
NOMNは、80の話し言葉から導出された、有機的な時間挙動の生成モデルに基づいている。実行時、システムは毎秒1,000回以上の更新による連続的なタイミング変動のストリームを生成し、入力オーディオに適用する。元のコンテンツは完全に保持される。信号に何も追加されず、何も除去されない。豊かにされるのは時間的微細構造のみであり、その尺度はswingやgrooveのような閾値未満であり、しかし知覚効果の閾値内にある。
変動はランダムではなく、ジッターで複製することはできない。周期的でもない。ループしない。コンテキストに構造化されており、繰り返さない——通過するオーディオの各瞬間に対してライブで生成される。
NOMNは、デジタルオーディオが時間的微細構造を欠いている、あるいはフォーマットが失った何かを復元する、とは主張しない。デジタル録音は、信号の帯域内コンテンツについての微細構造を担っている。NOMNの前提は異なる:クロックにロックされた再生は、そこに存在する何であれを完璧な時間的定常性とともに提示する——いかなる自然音響源も持たない定常性である。NOMNは構造化された時間変動を再生に導入する。
ユースケース
マスタリング&ポストプロダクション
EQ、コンプレッション、空間処理、ラウドネスとは直交する、オーディオ強化の新次元。あらゆるマスター、あらゆるジャンル、あらゆる時代の録音に適用可能。
ストリーミング&再生
ストリーミングインフラや再生デバイスにおけるリアルタイム処理レイヤーとしてデプロイ可能。音楽、ポッドキャスト、映画オーディオなど、通過するあらゆるオーディオをコンテンツ修正なしに強化する。
ハードウェア統合
システムの計算フットプリントはオーディオDSPチップへの組み込みデプロイに十分小さい——イヤフォン、車載ヘッドユニット、ポータブルプレーヤーに搭載可能なサイズ。コンシューマーオーディオハードウェア、車載オーディオシステム、プロフェッショナル機器への統合のためにライセンス可能。
--
## NOMNでないもの
NOMNはイコライザーでも、コンプレッサーでも、空間プロセッサーでも、エフェクトでもない。周波数コンテンツ、ダイナミックレンジ、ステレオイメージ、ラウドネスを変更しない。ハーモニクス、ノイズ、サチュレーションを加えない。修正は時間領域においてなされる。
--
## テクニカルノート
NOMNのタイミング変動はマイクロ秒〜ミリ秒のスケールで動作する——アナログ再生システムのタイミング不安定性と同じオーダーであり、より細かい一方で、機械的ではなく構造化されており、周期的ではなく非反復的である。
システムには、意図されたタイミングとレンダリングされたタイミングの関係を監視する連続的な品質検証が含まれており、処理から出力に至る完全な信号チェーンを通じて強化が維持されることを支援する。ヌルテスト分析からは、ハーモニクス、ノイズ、EQ、空間処理の付加はないことが示される——入力と出力の差は時間領域にある。
--
## フォーマット&アクセス
API: RESTful HTTPエンドポイント。オーディオを送信し、処理済みオーディオを受信。制御パラメータはオプション。自動モード利用可能。
ライセンス: ハードウェア、ソフトウェア、ストリーミングインフラへの統合に利用可能。デバイス単位、トラック単位、またはエンタープライズライセンスモデル。
特許状況: 特許出願中(日本、2026年)。POLYTOPE KK。
--
## デジタルオーディオとは何か、そしてなぜそれほど分かりにくいのか?
デジタルオーディオには、画面上のひとつひとつのピクセルが像を作るというような直観よりも、本質的に分かりにくい何かがある。我々はみな混乱してきたし、オンラインの議論フォーラムやオーディオファイル・コミュニティを見れば、まことに食い違う理解がある。我々はあらゆるオーディオを、奇妙によく機能する一種の知覚的なパーラー・トリックとして——リアリズムよりも強力ですらある「ファンタジー」とともに——考えるが、その威力の下には大量の数値が横たわっていて、それが我々の小さな人間の脳がほぼ本物だと信じる程度にうまく圧縮波を体へ押しつけ、我々はそれを通じてつながりを見出す。
デジタルオーディオは、エンコード側——録音、あるいはオーディオファイルを作ること——においては、連続的に変化する信号の非常に速い計測を行い、それを数値の列として保存することで機能する。
### デジタルオーディオの最小単位とその性質
サンプルとは、それら計測の一つひとつであり、ある瞬間の波形の振幅を表す整数(小数なし)または浮動小数点数(小数あり)である。アナログ中心のコミュニティで説明されるのと反対に、これらは「0と1」ではない——時間に対する圧縮波の高速なグラフ化である。
サンプルレートは、それら計測がどれくらいの頻度で行われるかを決める。単位は1秒あたりのサンプル数。96kHzではシステムは毎秒96,000の振幅値を捉え、それぞれが波形のその瞬間の位置のスナップショットだ。44.1kHz(CD)では毎秒44,100。よくある直観は、ファイルがサンプル間に「何も含んでいない」というものだ——しかしこれはこの題材についての最も誤解を招きやすい考え方だ。適切に帯域制限された標本化信号は、ナイキスト周波数までの元の波形の完全な表現である。サンプル間に欠けている情報はない。DACの再構成フィルタはギャップを推測して埋めているのではない。サンプルが一意に記述する一本の連続波形を再構成しているのだ。192kHzやDSDのような高いサンプルレートは、耳が見逃していた情報を加えるわけではない。再構成フィルタの仕事を可聴帯域からさらに遠ざけているだけだ。DSD(Direct Stream Digital)は、基本(DSD64)の2.8224 MHzからDSD512の22.5792 MHzまで走るレート群である。DSDは1ビット形式で、各サンプルは信号が上向きか下向きかしか保持しない。代わりにごく高いクロックレートで、ノイズ・シェイピングによりビット深度の低さを補う。
サンプルそのものは、周波数、音色、ピッチについて何の情報も含まない。これがとても分かりにくい点だ。これら微小な瞬間の内部で、振幅値を超える分析は一切行われていない。それらの性質は多くのサンプルにわたるパターンから創発する。スピーカーコーンは各瞬間に「どこにいるべきか」を知るだけでよく、その「どこにいるべきか」の値の列があれば、いかなる波形でもなぞれる。スピーカーはその動きで空気を変位させ、その変位が圧縮波となって体が感じ取れる。
ナイキスト限界もまた、オーディオ品質の話によく持ち出されるが分かりにくい用語だ。これは、有限のサンプルレートで標本化することの実用的な物理的帰結を述べたものだ:周波数Fで揺れる波を捉えるには、毎秒2Fを超える率で標本化する必要がある。これより遅く標本化すると、波の各サイクルに対する標本点が足りなくて一意に再構成できないからだ。飛んでくる波を想像してもらうとよい——少なくともその高低を捉えられる程度に、十分な点を素早く触る必要がある、そうすれば誰か——この場合は機械——がその大きさを理解できる。
ここで一度立ち止まろう。我々は文字通り、空気中の波の大きさについて話している。人間が聴ける最高の周波数は、おおよそ指の爪ほどの幅の波長に対応する。人間の聴覚は20kHz近辺で上限を迎えるため、44.1kHzと48kHzが標準になった。どちらも可聴帯域より十分なマージンを残している。96kHzや192kHzといった高いレートはあなたが聴ける範囲を拡張するわけではない。DACのアナログ再構成フィルタが可聴範囲でクリーンに動作する余地を与えているのである。
44.1kHz 標本化 → 22.05kHz 最大周波数 → 15.6 mm 波長
48kHz 標本化 → 24kHz 最大 → 14.3 mm
96kHz 標本化 → 48kHz 最大 → 7.1 mm
192kHz 標本化 → 96kHz 最大 → 3.6 mm
384kHz 標本化 → 192kHz 最大 → 1.8 mm
768kHz 標本化 → 384kHz 最大 → 0.89 mm
DSDは動作原理が異なり、この表で直接比較はできない。生のクロックレートはDSD512で22.5792 MHzだが、これは1ビット変調器のクロックであってPCMのナイキスト限界ではない。利用可能なオーディオ帯域幅はサンプルレートの半分で決まるのではなく、ノイズ・シェイピング・フィルタによって形作られる。
ビット深度は、各計測がどれだけ精密に保存されるかだ。24ビットでは1サンプルあたり約1670万個の振幅値が可能となり、これがダイナミックレンジ(小さい音と大きい音の間の潜在的差)とノイズフロアを規定する。注意:「ビット深度」もまた、何かを知っているわけではない。その効果は同様に高速かつ集約的だ。ビット深度を増やしたからといって、コンピューターが弦に触れる弓の音をレンダリングできるとなぜか「分かる」わけではない。
### バケツ、塊、フレーム
バッファは、システムがグループとして処理する、連続したサンプルの小さな塊である。ソフトウェア、ドライバ、ハードウェアの間で一つずつサンプルを受け渡すのは極端に非効率だからだ。汎用コンピューターは今なお、ジッターを大量に発生させずに高速でオーディオを動かすのが苦手だ。典型的なバッファは64、128、512サンプルのバケツを作る。96kHzでは、64サンプルのバッファは約0.67ミリ秒のオーディオに相当する。バッファが小さければレイテンシ——信号がシステムに入ってから出るまでの時間——は下がるが、処理がより頻繁になり、CPU負荷も上がり、OSやハードウェア・ファームウェアからの各種の奇妙さや干渉の影響も受けやすくなる。バッファが大きいとプロセッサにはやさしいが(ああ、安らぐ)、目立つ遅延を生む。それはライブ・パフォーマンスやモニタリングで問題になる。人間は途方もなく優れた「時間の見張り役」だからだ。
オーディオが複数チャンネル——ステレオ、サラウンド、それ以上——を持つ場合、各瞬間にはチャンネルあたり1つのサンプルが対応し、全チャンネルにわたる同時サンプルの集まりをフレームと呼ぶ。96kHzのステレオ録音は毎秒96,000フレームを生成し、各フレームは左右の2サンプルからなる。バッファサイズは通常、サンプルではなくフレーム単位で数える。それがチャンネル数に依らずオーディオの時間長に対応するからだ。
### 空気へ戻る
そして、人間がこのすべてを知覚するためには、どこかでこの高速なバケツ受け渡しの状況全体を空気へと変えなくてはならない。オーディオエンジンが各バッファをサンプルとフレームで満たし、処理し、DACに渡すと、DACは数値を電圧へと戻し、その電圧がスピーカーを駆動して、スピーカーが可能な限り正確にコーンを指示された位置へと動かす。
このサイクルが毎秒数千回繰り返されることで、リスナーは離散ブロックの連なりではなく、連続的でシームレスな波形として知覚する。
--
## 繊細さについて
エフェクトは設計上、繊細である。EQのように聴こえる離散的な変化ではない——時間的体験としてオーディオがどう感じられるかという質的な変化である。オーディオは常に耳の時間分解能の活用によって機能してきた:知覚の弁別を超える速さのクロックが連続性の幻想を生み出す。NOMNはこの同じ閾値で動作する。クロックを劣化させるのではなく、アコースティックおよび機械的システムが常に持ち、デジタルシステムが持たない種類の構造化された不安定性をクロックに与えることで。
これが特定のリスナー、特定の録音、特定の再生チェーンにとって重要かどうかは、修辞的な問いではなく経験的な問いである。あなたが何を感じるかについて主張はしないが、私たちは感じている。あなたにも感じていただけることを願っている。