NOMN

Speculative Audio Tools
← Werkzeuge

NOMN: Zeitfeinstruktur-Enhancer

Late 2026 / Patent Pending
FAQ
Was macht NOMN eigentlich mit Audio?
NOMN fügt die zeitliche Mikrostruktur hinzu, die natürliche akustische Quellen haben und die digitale Wiedergabe nicht hat. Der Bogenstrich eines Geigers, das Phrasing einer Sängerin, das Microtiming eines Schlagzeugers, das mechanische Driften jedes physischen Instruments: All das produziert kleine, strukturierte Variationen im Event-Timing, mit denen das auditorische System über Hunderttausende Jahre koevolviert ist. Die Variationen treten in das auditorische System als Teil dessen ein, was die Neurowissenschaft **temporal fine structure** (zeitliche Feinstruktur, TFS) nennt — die sub-Millisekunden-Wellenforminformation, die die Cochlea an den Hörnerv weiterreicht und die das Gehirn für Tonhöhenwahrnehmung, Quellenerkennung und das Empfinden von Natürlichkeit nutzt (siehe TFS-Fragen unten für mehr Auflösung).

Digitale Wiedergabe läuft auf einem kristallgebundenen Taktgeber, dessen Timing-Stabilität um Größenordnungen enger ist als die irgendeiner natürlichen akustischen Quelle. Quarze haben messbares Phasenrauschen und Jitter. Wir bestreiten das nicht, aber diese Abweichungen sind verschwindend gering und statistisch strukturlos im Vergleich zu der reichen zeitlichen Variation, die jede physische Klangquelle erzeugt. Es hat in der Naturgeschichte des Hörens noch nie eine Klangquelle gegeben, die zeitlich so starr war.

NOMN führt die Art von Variation ein, die natürliche Quellen haben und gitterstarre Wiedergabe nicht hat. Nicht als zufälliges Rauschen, nicht als wiedererkennbarer Effekt, sondern als strukturierte zeitliche Musterung, die das auditorische System als natürlich liest und nicht als mechanisch.
Ist das nicht einfach ein fortgeschrittenes Tremolo oder ein ausgefallener Chorus?
Auf der Ebene der DSP-Primitive gibt es Timing-Modulation seit jeher. Wow und Flutter auf Band tun das mit analogem Audio seit den 1930ern. Granularsynthese arbeitet seit den 1970ern auf Skalen unter 10 ms. Jedes Chorus-Plugin seit den 1990ern macht zeitvariante Modulation mit Sub-Sample-Auflösung. Wir behaupten nicht, Modulation erfunden zu haben :)

Was neu ist, ist das, was sie antreibt.

Das Steuersignal eines Tremolos ist ein 2-Parameter-LFO. Ein Chorus ist ein 4–6-Parameter-LFO. Ein Humanizer-Plugin ist gefiltertes Zufallsrauschen. Tape-Emulation ist Rauschen, geformt nach gemessenen Wow/Flutter-Spektren historischer Geräte. All das ist content-blind, und nichts davon ist vom Körper modelliert. Es ist von Nostalgie für Vintage-Equipment modelliert.

NOMNs Modulation ist content-adaptiv und statistisch an natürliche Quellvariation angepasst. Das bekommt man nicht aus einem LFO, egal wie clever man seine Parameter justiert. Die richtige Analogie ist nicht „fortgeschrittenes Tremolo". Es ist der Unterschied zwischen einem Sinuswellen-Oszillator und einem gesampelten Instrument. Beide produzieren periodisches Audio. Eines klingt wie ein Synth, eines klingt wie eine Violine — weil das Signal, das sie antreibt, vastly unterschiedliche Mengen an Natural-Source-Struktur kodiert. Dasselbe Primitiv, fundamental anderes Signal.
Die Musikkognitionsforschung sagt, der kleinste wahrnehmbare Timing-Unterschied liege bei 10–50 ms. Bedeutet das nicht, dass NOMNs Mikrosekunden-Modulation unterhalb der Hörbarkeitsschwelle / „Just Noticeable Difference" (JND) liegt und damit handwavy audiophiler Unsinn wie übertrieben teure Lautsprecherkabel?
Das ist die häufigste Variante der Hörbarkeitskritik, und sie stellt die Frage falsch herum.

Zunächst dazu, was die JND-Literatur tatsächlich misst. JND-Schwellen für musikalisches Timing (die im Bereich 10–50 ms) messen, wie weit sich eine Note relativ zu einer anderen verschieben muss, bevor ein Hörer in einer Forced-Choice-Aufgabe die Verschiebung bewusst identifizieren kann. Das sagt aus, ab wann Timing als unterschiedlich *etikettierbar* wird. Es sagt nichts über die Auflösung, mit der das auditorische System Zeit verarbeitet, oder darüber, was wir sensorisch wahrnehmen.

Die tatsächliche zeitliche Auflösung des auditorischen Systems ist etwa drei bis vier Größenordnungen feiner als musikalische JND. Die beiden etabliertesten Evidenzlinien:

Der binaurale Pfad löst interaurale Zeitdifferenzen bis auf etwa 10 Mikrosekunden auf. Klumpp & Eady (1956, J. Acoust. Soc. Am. 28: 859-860) maßen mittlere ITD-Diskriminierungsschwellen von 9μs für bandbegrenztes Rauschen und 11μs für einen 1000-Hz-Ton über zehn Hörer. Diese Schwellen wurden seit nahezu siebzig Jahren unabhängig reproduziert. Brughera, Dunai & Hartmann (2013, J. Acoust. Soc. Am. 133: 2839-2855) bestätigten Schwellen knapp über 10μs bei 700–1000 Hz mit modernen Methoden. Die niedrigsten gemessenen Schwellen nähern sich unter optimalen Bedingungen dem Bereich einzelner Mikrosekunden. Der Mechanismus ist gut verstanden: Neuronen in der medialen oberen Olive führen Koinzidenz-Detektion an phasengelockten Spikes von jedem Ohr durch. Die größte ITD, der man normalerweise begegnet — für einen Klang direkt von einer Seite — liegt bei rund 600–700μs, gesetzt durch den Abstand zwischen den Ohren (Mills 1958, J. Acoust. Soc. Am. 30: 237-246). Hörer lösen Winkelunterschiede von etwa 1 Grad nahe der Mittellinie zuverlässig auf. Anmerkung: Der Großteil dieser Forschung ist bereits 70+ Jahre alt!

Der monaurale Pfad kodiert die Sub-Millisekunden-Struktur von Klängen über das, was die auditorische Neurowissenschaft **temporal fine structure (TFS)** nennt — die schnellen Wellenform-Oszillationen innerhalb jedes cochleären Frequenzbandes, im Gegensatz zu den langsameren Hüllkurven (ENV)-Modulationen, die ihnen überlagert sind (Moore 2008, J. Assoc. Res. Otolaryngol. 9: 399-406, die kanonische Übersicht). TFS-Information wird im Timing von Hörnervenfaser-Spikes getragen, die sich auf einzelne Zyklen der Stimulus-Wellenform für niederfrequente Komponenten bis zu mehreren Kilohertz phasenlocken. Das ist keine Hypothese und keine umstrittene Behauptung, sondern das Standardmodell, wie die auditorische Peripherie Zeit kodiert, umfassend zusammengefasst bei Joris, Schreiner & Rees (2004, Physiological Reviews 84: 541-577).

TFS ist das, was das auditorische System für die Tonhöhenwahrnehmung komplexer Klänge nutzt, für die Sprachwahrnehmung in fluktuierendem Hintergrundrauschen und für die Quellentrennung in komplexen akustischen Umgebungen. Smith, Delgutte & Oxenham (2002, Nature 416: 87-90) zeigten dies direkt durch die Konstruktion „chimärer" Klänge, in denen die Hüllkurve eines Signals mit der TFS eines anderen kombiniert wurde. Hörer nahmen Tonhöhe und Quellenort zuverlässig auf Basis der TFS wahr, nicht der Hüllkurve. TFS ist nicht spezifisch für Live-Schall, binaurales Hören oder eine bestimmte Wiedergabesituation. Sie wirkt auf alles, was die Cochlea empfängt, einschließlich des Outputs von Kopfhörern und Lautsprechern, die aufgezeichnete Musik wiedergeben. Wenn Sie eine Aufnahme hören, wird die zeitliche Feinstruktur des Audios in das Spike-Timing Ihres Hörnervs mit Sub-Millisekunden-Auflösung kodiert. Diese Verarbeitung passiert kontinuierlich, unterhalb der Schwelle bewusster Wahrnehmung — genau deshalb messen musikalische JND-Studien sie nicht. JND misst, was Hörer berichten können. Sie misst nicht, was ihr auditorisches System tut.

Der wichtigere Punkt: **Die richtige Frage ist nicht, ob Hörer zwei Audiodateien in einem kontrollierten Versuch A/B-unterscheiden können. Die richtige Frage ist, ob die Technologie, die Audio für den menschlichen Konsum erzeugt, auf der Auflösung des sensorischen Systems operieren sollte, dem sie dient.**

Die Audioindustrie hat diese Frage seit Jahrzehnten konsistent beantwortet. Studios zeichnen mit 96 kHz oder 192 kHz auf, nicht weil Hörer diese Raten zuverlässig von 48 kHz auf jedem Track A/B-unterscheiden können, sondern weil die Produktionskette keine Artefakte am Auflösungsende des Systems einführen sollte. Mastering-Engineers obsessen über Jitter-Spezifikationen in Word Clocks, die weit unterhalb klassischer Hörbarkeitsschwellen operieren, weil sie nicht wollen, dass der Takt zum Flaschenhals wird. Professionelle Audio-Interfaces konkurrieren über Sub-Millisekunden-Roundtrip-Latenz. Das Prinzip ist konsistent: Audiotechnologie mit menschlicher Schnittstelle sollte oberhalb des sensorischen Bodens operieren, nicht darunter.

NOMN steht in dieser Linie. Kristallgebundenes Wiedergabetiming ist akustisch beispiellos in der Naturgeschichte des Hörens. Es hat noch nie eine Klangquelle mit so wenig zeitlicher Variation gegeben. Die Frage ist nicht, ob Hörer den Unterschied in einem Forced-Choice-Test pro Track artikulieren können. Die Frage ist, ob KI-generiertes Audio in großem Maßstab, gedacht für Milliarden Stunden menschlichen Hörens, die zeitliche Auflösung erreichen sollte, die das sensorische System tatsächlich nutzt. Wir denken, das sollte es. Die Audioindustrie hat diesem Prinzip historisch in jeder anderen Dimension der Wiedergabekette zugestimmt: Sample-Rate, Bit-Tiefe, Jitter, Latenz, Frequenzgang, Verzerrung. Die zeitliche Mikrostruktur-Dimension als einzige Ausnahme zu behandeln, nur weil die relevante Variation unterhalb der bewussten Etikettierungsschwelle liegt, ist inkonsistent.

Wäre die Hörbarkeitskritik haltbar — wäre alles unterhalb bewusster JND perzeptuell irrelevant —, dann könnten Hörer Klangquellen nicht lokalisieren, Stimmen nicht in einer Menge trennen, eine echte Violine nicht von einer gesampelten Violine durch denselben Lautsprecher unterscheiden. All diese Urteile hängen von zeitlicher Auflösung weit feiner als musikalische JND ab.
OK, das ist alles ziemlich interessant, aber was genau ist temporal fine structure und wo steht NOMN relativ zur etablierten TFS-Literatur?
Temporal fine structure (TFS) ist der etablierte technische Terminus in der auditorischen Neurowissenschaft für die schnelle Sub-Millisekunden-Wellenforminformation, die die Cochlea an den Hörnerv weiterreicht — im Unterschied zur langsameren Hüllkurven-Information (ENV), die darauf reitet. Die Cochlea zerlegt Breitbandschall über auditorische Filterung in schmalbandige Signale, und jedes dieser schmalbandigen Signale lässt sich als eine langsam variierende Hüllkurve, überlagert auf einen schnelleren Träger, charakterisieren: die Feinstruktur. Beide Arten von Information sind im Timing der Hörnerven-Spikes kodiert, aber unterschiedlich getragen — ENV über Änderungen der Feuerrate, TFS über Phasenkopplung an einzelne Zyklen der Wellenform.

Der TFS-Rahmen wurde über die letzten zwei Jahrzehnte ausführlich in der auditorischen Wissenschaft entwickelt. Moore (2008, J. Assoc. Res. Otolaryngol. 9: 399-406) ist die Standardübersicht zur Rolle von TFS in Tonhöhenwahrnehmung, Maskierung und Sprachwahrnehmung. Smith, Delgutte & Oxenham (2002, Nature 416: 87-90) nutzten „chimäre" Klänge, konstruiert durch Kombination der Hüllkurve eines Signals mit der TFS eines anderen, um zu zeigen, dass Hörer für Tonhöhe und Quellenlokalisierung auf TFS angewiesen sind, während sie für Spracherkennung in Stille auf ENV angewiesen sind. Folgearbeiten (Lorenzi et al. 2006, PNAS 103: 18866-18869; Hopkins & Moore 2009, J. Acoust. Soc. Am. 125: 442-446) haben gezeigt, dass TFS-Sensitivität entscheidend für die Sprachwahrnehmung in lauten Umgebungen ist und dass die reduzierte TFS-Sensitivität hörgeschädigter Hörer ein wichtiger Faktor für ihre Schwierigkeiten beim Sprachverstehen im Lärm ist.

Das ist auf zwei Arten für NOMN relevant.

Erstens: TFS ist das etablierte technische Vokabular für das, worauf NOMN operiert. Die zeitliche Mikrostruktur, die NOMN einführt, ist in der technischen Fachsprache eine Modulation der zeitlichen Feinstruktur des Audiosignals. Wir erfinden keine neue perzeptuelle Kategorie. Wir operieren in einer gut kartierten Region der auditorischen Wissenschaftsliteratur.

Zweitens: Die bestehende TFS-Forschung fokussiert primär auf das, was *verloren* geht — wie hörgeschädigte Hörer TFS-Sensitivität verlieren, wie Cochlea-Implantate sich schwertun, TFS-Information zu liefern, wie Altern TFS-Verarbeitung degradiert. NOMN nähert sich der Frage von der anderen Seite: Welche Art von TFS-Struktur sollte gut konstruierte Wiedergabetechnologie Hörern präsentieren, deren TFS-Verarbeitung intakt ist? Die auditorische Wissenschaftsgemeinschaft hat zwei Jahrzehnte damit verbracht zu dokumentieren, wie viel TFS für normales Hören zählt. Die Audioindustrie hat die entsprechende Schlussfolgerung für die Gestaltung von Wiedergabetechnologie noch nicht gezogen. NOMN ist eine Anwendung dieser Schlussfolgerung.

Eine Anmerkung zum Geltungsbereich. Die „fine structure" in TFS bezeichnet die schnelle Trägeroszillation innerhalb auditorischer Filterbänder, kodiert mit Sub-Millisekunden-Auflösung via Phasenkopplung bis zu mehreren Kilohertz. NOMNs Modulation operiert über einen Bereich von Mikrosekunden- bis Millisekunden-Skalen und moduliert die zeitliche Struktur des Audioinhalts selbst. Beide sitzen in dem zeitlichen Regime, in dem das auditorische System feinkörnige Timing-Arbeit leistet. Wir verwenden den breiteren Ausdruck „zeitliche Mikrostruktur" in Marketing-Texten, um nicht zu behaupten, wir würden direkt die spezifische signalverarbeitungstechnische Größe manipulieren, die TFS-Forscher technisch mit der Hilbert-Zerlegung messen — aber der perzeptuelle Mechanismus, den wir anvisieren, ist derselbe, den die TFS-Forschung seit den frühen 2000ern dokumentiert.

Eine Anmerkung dazu, was wir nicht behaupten. Wir behaupten nicht, dass digitalem Audio zeitliche Feinstruktur fehle oder dass NOMN etwas wiederherstelle, was das Format verloren habe. Eine PCM-Aufnahme trägt Feinstruktur für den im Band liegenden, hinreichend aufgelösten Inhalt des Signals. NOMNs Behauptung ist enger und anders: Taktgekoppelte Wiedergabe präsentiert die vorhandene Feinstruktur mit perfekter zeitlicher Stationarität — eine Stationarität, die keine natürliche akustische Quelle besitzt. NOMN führt strukturierte Zeitvariation in die Wiedergabe ein. Es ist agnostisch gegenüber der Menge an Feinstruktur-Detail in der Quelldatei, weil es das zeitliche Verhalten des Signals moduliert, statt Detail hinzuzufügen.
Wenn Sub-JND-Timing-Unterschiede keine Rolle spielen, warum betreibt die Audioindustrie so viel Aufwand zur Latenzminimierung?
Sie tut es nicht, und das ist die sauberste Illustration des Mensch:Maschine-Framings, das wir gerade gemacht haben.

Jeder Musiker, der mit einer DAW aufnimmt, justiert seine Audio-Buffer-Größe, um die Roundtrip-Latenz so niedrig wie möglich zu halten. Professionelle Audio-Interfaces konkurrieren über Sub-Millisekunden-Roundtrip-Latenz. Die Bela-Plattform wurde spezifisch dafür gebaut, Sub-Millisekunden-Action-to-Sound-Latenz für digitale Musikinstrumente zu erreichen (McPherson, Jack & Moro 2016, Proc. NIME), weil die meisten gängigen Plattformen die Ziele, die professionelle Musiker brauchen, nicht erreichen.

Die peer-reviewte Evidenz dazu, was Musiker tatsächlich fühlen, ist klar. Jack, Mehrabi, Stockman & McPherson (2018, Music Perception 36: 109-128) testeten professionelle Percussionisten und Amateurmusiker an einem digitalen Percussion-Instrument unter kontrollierten Latenzbedingungen von 0 ms, 10 ms, 10 ms ± 3 ms Jitter und 20 ms. Beide Gruppen bewerteten Null-Latenz als signifikant höherwertig als die 10ms-mit-Jitter- und 20-ms-Bedingungen. Professionelle Percussionisten waren empfindlicher gegenüber Latenz als Amateure und zeigten messbare Veränderungen in ihrer Timing-Performance unter zusätzlicher Latenz. Schmid et al. (2024, Proc. Mensch und Computer, ACM) maßen die JND für hinzugefügte Audio-Latenz über 37 Hörer und fanden eine mittlere JND von 27 ms bei 64 ms Basislatenz, wobei musikalisch fortgeschrittene Teilnehmer kleinere Spielräume zuverlässig detektierten. Frühere Ensemble-Arbeiten dokumentierten, dass Asynchronien bis zu 50 ms in realen Aufführungen auftreten (Rasch 1979, Acustica 43: 121-131) und dass professionelle Percussionisten ein Timing-Jitter von 10–40 ms aufweisen, selbst beim Synchronisieren auf ein Metronom (Dahl 2011, Music Perception 28: 491-503).

Akustische Drums haben eine natürliche Latenz von etwa 2–3 ms vom Schlagzeugstockkontakt bis zum Klang am Ohr des Drummers — ein Wert, der durch die Schallgeschwindigkeit über die Distanz von der Trommel zum Kopf gesetzt wird. Das ist die Baseline, auf die sich das Nervensystem des Drummers über Jahre der Praxis kalibriert hat. Wenn ein elektronisches Drum-Modul zusätzliche 5–10 ms darüber legt, beschreiben professionelle Drummer das Kit als „schwerfällig", „abgekoppelt", „laggy".

Beachten Sie, was hier passiert. Die Audioindustrie hat seit Jahrzehnten das Prinzip akzeptiert, dass **Wiedergabetechnologie auf der zeitlichen Auflösung operieren sollte, die das sensorische System tatsächlich nutzt, nicht auf der Auflösung der bewussten A/B-Detektion**. Niemand argumentiert, dass Audio-Interfaces 50 ms Latenz anstreben sollten, weil das die bewusste JND ist. Die Industrie zielt auf Sub-Millisekunden, weil dort die Mensch-Maschine-Interaktion zusammenbricht. Studios zeichnen mit hohen Sample-Raten auf, damit die Produktionskette nicht zum Flaschenhals wird. Word Clocks werden auf Jitter-Niveaus spezifiziert, die unter klassischer Hörbarkeit liegen, aus demselben Grund. Man will nicht, dass der Takt das niedrigstauflösende Element im System ist.

Das ist exakt das Prinzip, das NOMN anwendet. Taktgekoppelte Wiedergabe hat zeitliche Stabilität, die um Größenordnungen enger ist als jede natürliche akustische Quelle. Das sensorische System, das das Audio konsumiert, löst Timing auf Mikrosekunden-Skalen auf. Dass Hörer in einem A/B-Test nicht immer bewusst etikettieren können, was sie hören, bedeutet nicht, dass die Technologie unterhalb des sensorischen Bodens operieren sollte. Es bedeutet, dass die Audioindustrie zeitliche Mikrostruktur mit derselben ingenieurmäßigen Disziplin behandeln sollte, die sie bereits auf Sample-Rate, Bit-Tiefe, Latenz und Jitter anwendet.
Aber Lautsprechermembran und Raum führen weit mehr zeitliche Modifikation ein als NOMN. Überschwemmt das den Effekt nicht?
In absoluten Zeitbetrags-Begriffen, ja. Die Impulsantwort eines Raums operiert auf Millisekunden- bis Hundertmillisekunden-Skalen. Lautsprechermembran-Breakup passiert auf Sub-Millisekunden-Skalen. Die akustische Kette führt mehr zeitliche Modifikation ein als NOMN.

Der relevante Unterschied ist nicht die Magnitude. Es ist die Struktur.

Raum- und Lautsprecher-Faltung ist content-blind und stationär. Die Impulsantwort des Raumes ist für eine gegebene Hörposition fest. Die Reverb-Fahne eines Snare-Schlags und die Reverb-Fahne einer ausgehaltenen Gesangsnote bekommen dieselbe Raumbehandlung. Das ist Faltung mit einem festen Kernel — groß in der Magnitude, aber content-blind und zeitinvariant.

Das auditorische System hat gut dokumentierte Mechanismen, um Direktschall-Quellsignale von reverberanten Reflexionen zu trennen. Der Grundbefund ist der Precedence-Effekt, erstmals systematisch beschrieben von Wallach, Newman & Rosenzweig (1949, American Journal of Psychology 62: 315-336). Wenn zwei identische Klänge die Ohren innerhalb weniger Millisekunden voneinander erreichen, nimmt der Hörer einen einzelnen verschmolzenen Klang an der Position der zuerst eintreffenden Wellenfront wahr, mit den später eintreffenden Reflexionen stark unterdrückt in ihrem Beitrag zur wahrgenommenen Lokalisation. Deshalb können Sie einen Lautsprecher in einem reverberanten Raum lokalisieren. Das Gehirn schreibt den Spatialitäts-Hinweis dem Direktschall zu und behandelt die Reflexionen als Umgebung. Der Mechanismus erstreckt sich auf den breiteren Rahmen der Auditory Scene Analysis (Bregman, 1990, MIT Press), in dem das auditorische System primitive Gruppierungshinweise nutzt, um eingehenden Schall in Quellrepräsentationen zu organisieren, getrennt vom Umgebungskontext. Folgeübersichten (Litovsky et al. 1999, J. Acoust. Soc. Am. 106: 1633-1654; Brown et al. 2015, J. Acoust. Soc. Am. 137: 776-790) dokumentieren, dass dies ein kontinuierlicher, automatischer Prozess unterhalb der bewussten Wahrnehmung ist.

Was das auditorische System *nicht* herausrechnen kann und stark für Quellenidentifikation und Natürlichkeitsurteile nutzt, ist die intrinsische Timing-Struktur der zugrundeliegenden Quelle. Der Raum kann verwischen, was da ist. Er kann nicht hinzufügen, was nicht da ist, und er kann nicht subtrahieren, was da ist.

Kurz gesagt: Eine echte Violine und eine gesampelte Violine, gespielt durch denselben Lautsprecher in demselben Raum, werden von Hörern bei längerem Hören typischerweise unterschieden. Die akustische Kette ist identisch. Der Unterschied liegt in der quellenseitigen Timing-Struktur, die die Kette übersteht, weil sie im Signal kodiert ist, bevor es jemals den Lautsprecher erreicht.
Glättet der Rekonstruktionsfilter des DAC schnelle Timing-Modulation nicht ohnehin?
Nein, und der Grund ist wichtig für das, was wir hier tun: NOMNs Modulation ist kein separater Timing-Kanal, den der DAC herausfiltern könnte. Die Modulation ist im Audioinhalt selbst kodiert — darin, welche Samples welche Energie enthalten. Der DAC sieht ein normales Audiosignal auf seiner nativen Sample-Rate und wendet seine übliche Rekonstruktion an. Was immer der DAC mit dem Audio macht, macht er identisch mit NOMN-verarbeitetem und unverarbeitetem Audio. Die Modulation bleibt erhalten, weil sie eine Eigenschaft des Inhalts ist, nicht Metadaten, die der Filter zerstören könnte.

Ein allgemeines Prinzip, das es klar zu formulieren lohnt: NOMNs Modulation ist Content, keine Metadaten. Alles, was das Audio verarbeitet, verarbeitet die Modulation mit. Alles, was das Audio nicht verarbeitet, kann die Modulation nicht antasten. Es gibt keinen separaten Kanal, den man angreifen könnte. Dieselbe Logik gilt für den Lautsprecher, den Raum, die HRTF des Hörers, den Gehörgang. Alles lineare zeitinvariante Operationen auf dem Audioinhalt — keine davon löscht die Modulation selektiv aus.
Könnte man dasselbe nicht mit einem leichten Chorus oder gefiltertem Rauschen, das einen Varispeed treibt, erreichen?
Man könnte *einiges* davon erreichen. Audio-Engineers wissen seit Jahrzehnten, dass das Hinzufügen subtiler zeitlicher Variation digitales Audio weniger mechanisch klingen lässt. Tape-Emulation-Plugins, subtile Chorus-Effekte und Pitch-Modulation stehen alle in dieser Linie. Wir bestreiten nicht, dass irgendeine strukturierte zeitliche Variation besser ist als keine.

Der Unterschied liegt darin, was das auditorische System mit verschiedenen Arten von Variation macht. LFO-getriebene Modulation ist periodisch, und das auditorische System detektiert Periodizität unterhalb der bewussten Wahrnehmung. Subtile periodische Modulation liest sich als „wackelig" oder „effektiert", selbst wenn Hörer nicht sagen können, warum. Gefilterte Rauschmodulation ist aperiodisch, aber content-blind — was das auditorische System ebenfalls als fremd zu natürlichen Quellen liest, da natürliche Quellen keine statistisch weiße Timing-Variation produzieren. Natürliche Timing-Variation hat spezifische Struktur: lang-reichweitige Korrelationen und Inhalt-Korrelation, die direkt in menschlicher Performance gemessen wurden. Hennig (2014, PNAS 111: 12974-12979) dokumentierte, dass Timing-Abweichungen in professionellen Drum-Performances lang-reichweitige (1/f-typ) Korrelationen aufweisen, nicht weiße Rauschstatistik — ein Befund, der mit breiteren Arbeiten zur zeitlichen Struktur menschlicher motorischer Performance konsistent ist (Gilden, Thornton & Mallon 1995, Science 267: 1837-1839). Je näher Ihre Modulation dieser Struktur kommt, desto weniger flaggt das auditorische System sie als fremd.

NOMNs Modulation passt zu dieser Struktur. Ein leichter Chorus oder 1/f-Rauschen nicht.

Es gibt eine subtilere Version dieser Frage, die direkt verdient beantwortet zu werden. Jede hinreichend schnelle Zeitachsen-Modulation verändert die zeitliche Feinstruktur des Signals — unabhängig davon, welches Steuersignal sie treibt. Das ist einfach die Physik der Operation, und es gilt für einen LFO, für 1/f-Rauschen und für NOMN. Aber TFS zu verändern ist nicht automatisch vorteilhaft. Das auditorische System unterscheidet zwischen TFS-Variation, die zu natürlichen Quellstatistiken passt, und TFS-Variation, die das nicht tut. Periodische Modulation liest sich als Effekt. Weiße-Rausch-Modulation liest sich als Fehlfunktion. Nur Modulation, die die statistische Struktur natürlicher zeitlicher Variation trägt, liest sich als natürlich. Die Varispeed-Engine ist der Mechanismus. Das Steuersignal entscheidet, ob die resultierende TFS-Modifikation etwas ist, was das auditorische System begrüßt, oder etwas, das es flaggt. Der Mechanismus ist generisch. Die Struktur ist es nicht.
Wurde das nicht schon versucht? Ist NOMN nicht einfach wie MQA oder C Wave?
Unsere Absichten sind ziemlich anders, und unsere Behauptungen sind nicht so extrem. MQA versuchte, Zeitdomänen-Artefakte in der Kodierungs-/Dekodierungskette selbst zu beheben, vermarktete verlustbehaftete Kompression als verlustlos, verlangte proprietäre Decoder und behandelte unabhängige Messung als Gegner. Es brach unter anhaltender technischer Kritik zusammen. NOMN berührt die Kodierungskette nicht. Wir fügen zeitliche Mikrostruktur bei der Wiedergabe hinzu, downstream der Rekonstruktion, mit konventioneller Architektur. Wir fänden es großartig, wenn NOMN in Hardware und Streaming-Clients integriert würde und manche Mastering-Engineers es als finalen Schliff überzeugend genug fänden.

C Wave argumentiert, PCM sei „nicht-kontinuierlich" und das Gehirn detektiere diese Diskontinuität. Ihre Lösung ist eine Art Reverb, um „Lücken zu füllen". Wir teilen diese Diagnose nicht. Ein Reverb-Algorithmus, der auf PCM läuft, ist immer noch PCM, und Shannon-Nyquist garantiert, dass korrekt bandbegrenztes PCM bis zur Nyquist-Frequenz mathematisch äquivalent zu einer kontinuierlichen Wellenform ist. Es gibt im digitalen Signal keine Lücken, die gefüllt werden müssten. Wir behaupten nicht, etwas innerhalb von PCM zu reparieren. Wir behaupten, dass natürliche akustische Quellen eine zeitliche Mikrostruktur haben, die taktgebundener Wiedergabe fehlt — eine andere Behauptung, geerdet in den physikalischen Eigenschaften natürlicher Klangquellen, nicht in umstrittenen Behauptungen über Sampling-Theorie.

Die größte Lehre aus jenen Bemühungen: Streiten Sie nicht mit der Sampling-Theorie, behaupten Sie nichts, was Sie nicht messen können, und behandeln Sie unabhängige Messung nicht als Feind.
Inwiefern unterscheidet sich das von einem Humanizer-Plugin?
Humanizer-Plugins nutzen Zufallsgeneratoren, um MIDI-Events Timing-Variation hinzuzufügen. Es gibt sie seit den frühen 1990ern, und sie helfen. Deshalb hat jede DAW einen.

Zwei Unterschiede. Erstens fügen Humanizer stochastische Variation hinzu. NOMN fügt strukturierte Variation hinzu, die zu natürlichen Quellstatistiken passt. Zufällig ist nicht dasselbe wie natürlich. Die in menschlichem Motor-Timing dokumentierte Lang-Reichweiten-Korrelationsstruktur (Gilden et al. 1995; Hennig 2014) ist kategorial verschieden von der Weißrausch-Verteilung, die die meisten Humanizer produzieren, und das auditorische System reagiert auf diese Unterscheidung.

Zweitens operieren Humanizer auf MIDI-Event-Timing vor dem Audio-Rendering. NOMN operiert auf Audio auf Signalebene. Ein Humanizer auf einer quantisierten MIDI-Snare verschiebt den Schlag. NOMN moduliert die Wiedergabe des Audios selbst. Verschiedene Operationen, verschiedene Positionen in der Signalkette, verschiedene Effekte. Ein Humanizer kann eine fertige Audiodatei nicht humanisieren. NOMN kann.
Ist die zeitliche Modulation hörbar?
Das ist die falsche Frage, und die Art, wie sie üblicherweise gestellt wird, ist Teil dessen, warum die Hörbarkeitsdebatte in der Audiowelt so lange unproduktiv war.

Wenn Sie meinen „kann ein Hörer NOMN als wiedererkennbaren Effekt identifizieren", dann generell nein — und das ist der Designintent. Ein Flanger, der nicht hörbar wäre, würde an seinem Zweck scheitern. NOMN, das als Verarbeitung hörbar wäre, würde an seinem Zweck scheitern. Sie zielen auf entgegengesetzte Ergebnisse.

Wenn Sie meinen „würde ein Hörer in einem kontrollierten Versuch NOMN-verarbeitetes Audio von unverarbeitetem A/B-unterscheiden", dann ist das eine empirische Frage, die wir mit ordentlicher, unabhängiger, präregistrierter perzeptueller Forschung untersuchen wollen und deren Ergebnisse wir veröffentlichen werden. Es ist auch nicht die Frage, die entscheidet, ob die Technologie zählt oder es wert ist, verfolgt oder unterstützt zu werden.

Die relevante Frage ist die, die die Audioindustrie seit Jahrzehnten für jede andere Dimension der Wiedergabekette beantwortet hat: Operiert die Technologie auf der zeitlichen Auflösung, die das sensorische System tatsächlich nutzt? Für Sample-Rate, Bit-Tiefe, Latenz, Jitter und Frequenzgang hat die Industrie konsistent mit Ja geantwortet. Die Produktionskette sollte zum sensorischen Boden passen, nicht zur Schwelle bewusster A/B-Detektion. Wir wenden dieselbe ingenieurmäßige Disziplin auf zeitliche Mikrostruktur an. Ob ein Hörer den Unterschied in einem Forced-Choice-Test pro Track artikulieren kann, ist eine andere Frage als die, ob die Technologie, die Milliarden Stunden menschlichen Hörens dient, zur sensorischen Auflösung passen sollte.
Warum heißt es NOMN? Ist das letzte N ein stummes N?
Der Name leitet sich von „metronome" ab. Er liest sich auch als „no man". Wir behandeln diese doppelte Resonanz — zwischen mechanischer Zeitmessung und menschlich produzierter Variation — als produktiv und nicht als etwas, das aufgelöst werden müsste.
Wo kann ich mehr über die auditorische Wissenschaft lesen, die Sie zitieren?
Die Behauptungen in diesem FAQ darüber, wie das auditorische System Zeit verarbeitet, sind nicht unsere. Sie sind Standard-Neurowissenschaft, und wir haben die kanonischen Quellen zitiert, damit jeder nachprüfen kann, womit wir arbeiten. Die vollständige Liste:

INTERAURAL TIME DIFFERENCE THRESHOLDS

— Klumpp, R.G. & Eady, H.R. (1956). "Some Measurements of Interaural Time Difference Thresholds." Journal of the Acoustical Society of America 28(5): 859-860. The original measurement: 9μs threshold for band-limited noise, 11μs for 1000-Hz tone, 28μs for clicks (75% correct discrimination, ten listeners).

— Mills, A.W. (1958). "On the Minimum Audible Angle." Journal of the Acoustical Society of America 30(4): 237-246. Foundational measurement of angular acuity in sound localization (~1° near midline).

— Brughera, A., Dunai, L. & Hartmann, W.M. (2013). "Human interaural time difference thresholds for sine tones: The high-frequency limit." Journal of the Acoustical Society of America 133(5): 2839-2855. Modern confirmation of ~10μs thresholds for pure tones at mid-frequencies, with high-frequency cutoff around 1.4 kHz.

NEURAL CODING OF TEMPORAL STRUCTURE

— Joris, P.X., Schreiner, C.E. & Rees, A. (2004). "Neural Processing of Amplitude-Modulated Sounds." Physiological Reviews 84(2): 541-577. The standard review on how the auditory system encodes temporal modulation for source localization, identification, and parsing.

— Moore, B.C.J. (2008). "The role of temporal fine structure processing in pitch perception, masking, and speech perception for normal-hearing and hearing-impaired people." Journal of the Association for Research in Otolaryngology 9(4): 399-406. The canonical review of temporal fine structure (TFS) and its perceptual role.

— Smith, Z.M., Delgutte, B. & Oxenham, A.J. (2002). "Chimaeric sounds reveal dichotomies in auditory perception." Nature 416: 87-90. The foundational experimental demonstration that listeners rely on TFS for pitch and localization while ENV dominates speech recognition in quiet.

— Lorenzi, C., Gilbert, G., Carn, H., Garnier, S. & Moore, B.C.J. (2006). "Speech perception problems of the hearing impaired reflect inability to use temporal fine structure." Proceedings of the National Academy of Sciences 103: 18866-18869. Direct evidence for TFS's role in speech-in-noise perception.

SOURCE/ENVIRONMENT SEPARATION

— Wallach, H., Newman, E.B. & Rosenzweig, M.R. (1949). "The Precedence Effect in Sound Localization." American Journal of Psychology 62(3): 315-336. The foundational paper showing that listeners localize sounds based on first-arriving wavefront, suppressing reverberant reflections.

— Bregman, A.S. (1990). Auditory Scene Analysis: The Perceptual Organization of Sound. MIT Press. The standard reference text on how the auditory system organizes complex sound mixtures into source representations.

— Litovsky, R.Y., Colburn, H.S., Yost, W.A. & Guzman, S.J. (1999). "The Precedence Effect." Journal of the Acoustical Society of America 106(4): 1633-1654. Comprehensive review of the precedence effect and echo suppression literature.

LATENCY PERCEPTION AND MUSICAL PERFORMANCE

— Jack, R.H., Mehrabi, A., Stockman, T. & McPherson, A. (2018). "Action-sound Latency and the Perceived Quality of Digital Musical Instruments." Music Perception 36(1): 109-128. Professional percussionists rated 10ms±3ms jitter and 20ms latency conditions as significantly lower quality than zero latency.

— McPherson, A., Jack, R. & Moro, G. (2016). "Action-Sound Latency: Are Our Tools Fast Enough?" Proc. NIME 2016. Survey demonstrating most digital musical instrument platforms fail to meet sub-millisecond latency targets; motivates the Bela platform.

— Schmid, A., et al. (2024). "Measuring the Just Noticeable Difference for Audio Latency." Proc. Mensch und Computer 2024 (ACM). Mean JND of 27ms at 64ms base latency, with musically sophisticated listeners detecting smaller margins.

— Dahl, S. (2011). "Striking Movements: A Survey of Motion Analysis of Percussionists." Music Perception 28(5): 491-503. Documentation of percussionist timing variability.

NATURAL TIMING STATISTICS

— Hennig, H. (2014). "Synchronization in human musical rhythms and mutually interacting complex systems." Proceedings of the National Academy of Sciences 111(36): 12974-12979. Direct measurement of 1/f long-range correlations in professional drum performance timing.

— Gilden, D.L., Thornton, T. & Mallon, M.W. (1995). "1/f noise in human cognition." Science 267: 1837-1839. Broader finding of 1/f temporal structure across human cognitive and motor performance.

Wir zitieren diese Arbeiten, weil wir möchten, dass NOMNs perzeptuelle Behauptungen auf demselben Fundament ruhen wie die der übrigen auditorischen Wissenschaftsgemeinschaft. Unabhängige Messung und Verifikation sind, wie dieses Feld voranschreitet, und wir wollen davon nicht ausgenommen sein.

Der mit Abstand schnellste menschliche Sinn ist das Hören — um mehr als den Faktor 10. Menschen können Zeitunterschiede von rund zehn Mikrosekunden erkennen. Wenn der Monitor, auf dem Sie dies lesen, mit 60 Hz aktualisiert wird, ist das über tausendmal langsamer als das, was Ihre Ohren auflösen können.

Jede digitale Audioquelle der Welt teilt eine Eigenschaft: ein Timing, das weit stabiler ist als alles in der Natur. DAWs, digitale Synthesizer, Drum Machines, Sampler, Streaming-Audio — all das ist vom Design her zeitlich starr. Audiophile streben mit externen 10-MHz-Clocks immer engere Stabilität an. Die Arbeitsdefinition von „Wiedergabetreue" ist zu minimaler Frequenzinstabilität, minimaler Timing-Variation geworden.

Parallel dazu hat die Branche fünfzig Jahre damit verbracht, die spektrale Wiedergabetreue zu optimieren, und eine digitale Infrastruktur für Musikproduktion und -wiedergabe aufgebaut, die Größenordnungen unterhalb der zeitlichen Empfindlichkeit des Systems operiert, dem sie dienen sollte: dem Zuhörer.

Klang in der Natur ist niemals zeitlich starr. Jedes akustische Instrument, jede Stimme, jeder Windhauch durch eine Umgebung weist kontinuierliche Timing-Variationen im Mikrosekundenbereich auf, die aus der Physik seiner Erzeugung resultieren. Diese Variationen sind keine Unvollkommenheiten — sie sind ein Teil dessen, was das Hörsystem als Lebendigkeit erkennt. Die entscheidende Sub-Technologie, die den Schlussstein aller Audiotechnologien bildet, ist eine zugrundeliegende Periodizität — ein Takt. Ob es eine modulierte elektrische Frequenz ist, ein rotierender Wachszylinder, eine Schallplatten-Schneidemaschine oder ein Digital-Analog-Wandler: Es gibt immer eine Methode, die logische Struktur der neu erzeugten Quanten zu quantifizieren und im gesamten System aufrechtzuerhalten. Wenn dieser Takt degradiert, bricht die Illusion zusammen — wie ein zu langsam geblättertes Daumenkino: Der perzeptuelle Hack scheitert.

Plattenspieler und analoge Bandmaschinen klingen nicht besser — sie fühlen sich besser an. Sie sind Microtiming-Enhancer, die zufällig zufällige zeitliche Variation in das Signal einführen. Die mechanischen Instabilitäten eines Plattentellers oder Bandtransports erzeugen Variationen in der Zeitdomäne, gekoppelt mit Frequenzinstabilität. Das ist eine Qualität, für die Menschen enorme Summen ausgeben — über Vinyl-Pressungen, Röhren und analoge Signalketten —, oft ohne benennen zu können, was sie hören. Denn was sie hören, ist nicht spektral. Es ist temporal.

NOMN führt zeitliches Leben in digitales Audio ein. Es ist ein System zur Anreicherung der zeitlichen Feinstruktur, das menschlich strukturierte, nicht-wiederholende Timing-Variation in jeden Audiostrom einführt — und das mit der Auflösung des menschlichen Wahrnehmungssystems arbeitet.

Im frühen zwanzigsten Jahrhundert prägte der Künstler Marcel Duchamp den Begriff „inframince" — das Infradünne — für die trennende Differenz zwischen Dingen, die identisch erscheinen. Zwei Objekte aus derselben Form, identisch und doch nicht.

NOMN nimmt die infradünne trennende Differenz zwischen lebendiger und mechanischer Zeit und macht sie bedienbar.

--
## Funktionsweise

NOMN ist auf einem generativen Modell organischen zeitlichen Verhaltens aufgebaut, abgeleitet aus achtzig gesprochenen Sprachen. Zur Laufzeit erzeugt das System einen kontinuierlichen Strom von Timing-Variationen — über 1.000 Aktualisierungen pro Sekunde — und wendet sie auf eingehendes Audio an. Der ursprüngliche Inhalt bleibt vollständig erhalten. Dem Signal wird nichts hinzugefügt und nichts entnommen. Nur die zeitliche Mikrostruktur wird angereichert — auf einer Skala unterhalb der Schwelle von etwas wie Swing oder Groove, aber innerhalb der Schwelle der wahrnehmbaren Wirkung.

Die Variationen sind nicht zufällig und lassen sich nicht durch Jitter duplizieren. Sie sind nicht periodisch. Sie loopen nicht. Sie sind kontextuell strukturiert und nicht-wiederholend — live generiert für jeden Moment Audio, der hindurchläuft.

NOMN behauptet nicht, digitalem Audio fehle zeitliche Feinstruktur, oder dass es etwas wiederherstelle, was das Format verloren hätte. Eine digitale Aufnahme trägt Feinstruktur für den im Band liegenden Inhalt des Signals. NOMNs Prämisse ist eine andere: Taktgekoppelte Wiedergabe präsentiert das Vorhandene mit perfekter zeitlicher Stationarität — eine Stationarität, die keine natürliche akustische Quelle besitzt. NOMN führt strukturierte Zeitvariation in die Wiedergabe ein.


Anwendungsfälle

Mastering & Postproduktion
Eine neue Dimension der Audioverbesserung, orthogonal zu EQ, Kompression, räumlicher Verarbeitung und Lautheit. Anwendbar auf jedes Master, jedes Genre, jede Ära der Aufnahmetechnik.

Streaming & Wiedergabe
Einsetzbar als Echtzeit-Verarbeitungsschicht in Streaming-Infrastruktur oder Wiedergabegeräten. Verbessert jedes durchlaufende Audio — Musik, Podcasts, Filmaudio — ohne Inhaltsmodifikation.

Hardware-Integration
Der Rechenbedarf des Systems ist klein genug für eingebettete Deployments auf Audio-DSP-Chips — klein genug für In-Ears, Automotive-Headunits und tragbare Player. Lizenzierbar für die Integration in Consumer-Audio-Hardware, Automotive-Audiosysteme und professionelle Ausrüstung.

--
## Was es nicht ist

NOMN ist kein Equalizer, kein Kompressor, kein Raumprozessor und kein Effekt. Es verändert weder Frequenzinhalt noch Dynamikumfang, weder Stereobild noch Lautheit. Es fügt keine Obertöne, kein Rauschen und keine Sättigung hinzu. Die Modifikation findet in der Zeitdomäne statt.

--
## Technische Hinweise

NOMNs Timing-Variationen operieren auf Mikrosekunden- bis Millisekunden-Skalen — in derselben Größenordnung wie die Timing-Instabilitäten analoger Wiedergabesysteme und feiner, aber strukturiert statt mechanisch, und nicht-wiederholend statt periodisch.

Das System enthält eine kontinuierliche Qualitätsvalidierung, die das Verhältnis zwischen beabsichtigtem und gerendertem Timing überwacht und mithilft, sicherzustellen, dass die Verbesserung die gesamte Signalkette von der Verarbeitung bis zur Ausgabe übersteht. Nulltest-Analysen zeigen keine hinzugefügten Obertöne, kein Rauschen, keine EQ-Anhebung und keine räumliche Verarbeitung — der Unterschied zwischen Eingang und Ausgang liegt in der Zeitdomäne.

--
## Formate & Zugang

API: RESTful HTTP-Endpunkt. Audio senden, verarbeitetes Audio empfangen. Optionale Steuerungsparameter. Automatik-Modus verfügbar.

Lizenzierung: Verfügbar für die Integration in Hardware, Software und Streaming-Infrastruktur. Lizenzmodelle pro Gerät, pro Track oder als Enterprise-Lizenz.

Patentstatus: Patent angemeldet (Japan, 2026). POLYTOPE KK.

--
## Was ist digitales Audio, und warum ist es so verwirrend?

Es gibt etwas geradezu wesenhaft Verwirrendes an digitalem Audio, das weniger intuitiv ist als etwa die Vorstellung einzelner Pixel, die ein Bild auf einem Bildschirm bilden. Wir alle waren schon verwirrt, und Sie finden online, in Diskussionsforen und Audiophilen-Communities sehr unterschiedliche Auffassungen. Wir denken über jedes Audio als eine Art perzeptuellen Salontrick, der erstaunlich gut funktioniert und sogar mit etwas Mächtigerem als Realismus arbeitet — mit Fantasie —, aber unter dieser Kraft liegt eine ganze Menge Zahlen, die irgendwie Verdichtungswellen so überzeugend in Richtung Ihres Körpers stoßen, dass unsere kleinen menschlichen Gehirne glauben, es sei fast real, und wir Verbindung darüber finden.

Digitales Audio funktioniert auf der Kodierungsseite — Aufnahme oder das Anlegen einer Audiodatei — dadurch, dass es sehr schnelle Messungen eines kontinuierlich variierenden Signals nimmt und sie als Folge von Zahlen speichert.

### Die kleinsten Einheiten digitalen Audios und ihre Eigenschaften

Ein Sample ist eine einzelne dieser Messungen: ein Integer (ohne Dezimalstelle) oder Float (mit Dezimalstelle), der die momentane Amplitude der Wellenform an einem Zeitpunkt repräsentiert. Anders als in analogzentrierten Communities oft beschrieben, sind das nicht „Nullen und Einsen", sondern ein schnelles Aufzeichnen einer Verdichtungswelle über die Zeit.

Die Sample-Rate bestimmt, wie oft diese Messungen passieren. Sie wird in Samples pro Sekunde angegeben. Bei 96 kHz erfasst das System 96.000 Amplitudenwerte pro Sekunde, jeden als Momentaufnahme, wo sich die Wellenform genau dann befindet. Bei 44,1 kHz (CD) sind es 44.100 pro Sekunde. Eine verbreitete Intuition lautet, die Datei „enthalte nichts" zwischen den Samples — aber das ist die einzige irreführendste Art, darüber nachzudenken. Ein korrekt bandbegrenztes, gesampletes Signal ist eine vollständige Repräsentation der originalen Wellenform bis zur Nyquist-Frequenz. Zwischen den Samples geht keine Information verloren. Der Rekonstruktionsfilter des DAC rät nicht und füllt keine Lücke; er rekonstruiert die eine kontinuierliche Wellenform, die die Samples eindeutig beschreiben. Höhere Sample-Raten wie 192 kHz oder DSD fügen dem Ohr keine fehlende Information hinzu; sie schieben die Arbeit des Rekonstruktionsfilters weiter weg vom hörbaren Bereich. DSD (Direct Stream Digital) ist eine Familie von Raten, die von 2,8224 MHz auf Basisniveau (DSD64) bis zu 22,5792 MHz bei DSD512 reichen. DSD ist ein 1-Bit-Format, das heißt jedes Sample speichert nur, ob sich das Signal aufwärts oder abwärts bewegt, wobei die sehr hohe Taktrate die niedrige Bit-Tiefe durch Noise-Shaping kompensiert.

Die Samples selbst enthalten nichts über Frequenz, Klangfarbe oder Tonhöhe. Genau das ist so verwirrend. In diesen winzigen Momenten passiert keinerlei Analyse jenseits eines Amplitudenwertes. Jene Eigenschaften entstehen aus dem Muster über viele Samples hinweg. Eine Lautsprechermembran muss in jedem Moment nur wissen, wo sie sein soll, und eine Sequenz von „Wo-sein"-Werten reicht aus, um jede Wellenform nachzuzeichnen. Der Lautsprecher verdrängt mit diesen Bewegungen Luft, und diese Verdrängung erzeugt Verdichtungswellen, die Ihr Körper wahrnehmen kann.

Das Nyquist-Limit ist ein weiterer verwirrender Begriff, der oft in Gespräche über Audioqualität hineingezogen wird. Er beschreibt die praktische physikalische Folge einer endlichen Sampling-Rate: Um eine Welle einzufangen, die mit Frequenz F wackelt, muss man mit mehr als 2·F pro Sekunde samplen, weil ein langsameres Sampling der Welle nicht genug Stützstellen pro Zyklus liefert, um die Welle eindeutig zu rekonstruieren. Wenn man sich also eine vorbeifliegende Welle vorstellt, muss man sie so schnell an genügend Punkten „berühren", dass jemand — oder in diesem Fall eine Maschine — ihre Größe verstehen kann, indem zumindest Hoch- und Tiefpunkte erfasst werden.

Halten wir hier kurz inne. Wir sprechen buchstäblich über die Größe einer Welle in Luft. Die höchsten Frequenzen, die Menschen hören können, entsprechen Wellenlängen ungefähr in der Breite eines Fingernagels. Menschliches Hören endet nahe 20 kHz, weshalb 44,1 kHz und 48 kHz Standard wurden. Beide lassen einen komfortablen Spielraum über dem hörbaren Band. Höhere Raten wie 96 kHz oder 192 kHz erweitern nicht das, was Sie hören können. Sie geben den analogen Rekonstruktionsfiltern am DAC mehr Raum, im hörbaren Bereich sauber zu arbeiten.

44,1 kHz Sampling → 22,05 kHz max. Frequenz → 15,6 mm Wellenlänge
48 kHz Sampling → 24 kHz max. → 14,3 mm
96 kHz Sampling → 48 kHz max. → 7,1 mm
192 kHz Sampling → 96 kHz max. → 3,6 mm
384 kHz Sampling → 192 kHz max. → 1,8 mm
768 kHz Sampling → 384 kHz max. → 0,89 mm

DSD funktioniert anders und ist auf dieser Tabelle nicht direkt vergleichbar. Seine rohe Taktrate bei DSD512 beträgt 22,5792 MHz, aber das ist die Taktrate eines 1-Bit-Modulators, kein PCM-Nyquist-Limit, und die nutzbare Audiobandbreite wird vom Noise-Shaping-Filter geformt und nicht auf die Hälfte der Sample-Rate festgelegt.

Bit-Tiefe ist, wie präzise jede Messung gespeichert wird. 24-Bit liefert ~16,7 Millionen mögliche Amplitudenwerte pro Sample, was den Dynamikumfang (den potenziellen Unterschied zwischen leise und laut) und den Rauschpegel setzt. Beachten Sie: Auch „Bit-Tiefe" weiß nichts, und ihre Wirkung ist ähnlich schnell und aggregiert. Es ist nicht so, dass Ihr Computer mit mehr Bit-Tiefe irgendwie weiß, dass er nun den Klang eines Bogens auf einer Saite rendern kann.

### Eimer, Brocken und Frames

Ein Buffer ist ein kleiner Brocken aufeinanderfolgender Samples, den das System als Gruppe verarbeitet, weil es wild ineffizient wäre, Samples einzeln zwischen Software, Treibern und Hardware zu reichen. Allzweckcomputer tun sich immer noch schwer damit, Audio bei höchster Geschwindigkeit ohne reichlich Jitter zu bewegen. Ein typischer Buffer könnte einen Eimer von 64, 128 oder 512 Samples bilden. Bei 96 kHz repräsentiert ein 64-Sample-Buffer etwa 0,67 Millisekunden Audio. Kleinere Buffer bedeuten geringere Latenz — die Zeit zwischen Eintreffen eines Signals im System und seinem Verlassen —, verlangen aber häufigere Verarbeitung, fordern mehr von der CPU und sind anfälliger für allerlei Wunderlichkeiten und Interferenzen aus dem Betriebssystem oder der Hardware und ihrer Firmware. Größere Buffer sind leichter für den Prozessor (ah, entspannt) führen aber zu spürbarer Verzögerung, was für Live-Performance und Monitoring zählt, weil Menschen so unglaubliche Zeit-Hüter sind.

Wenn Audio mehrere Kanäle hat — Stereo, Surround oder mehr —, hat jeder Zeitpunkt ein Sample pro Kanal, und die Gruppe gleichzeitiger Samples über alle Kanäle hinweg heißt Frame. Eine Stereoaufnahme bei 96 kHz erzeugt 96.000 Frames pro Sekunde, jedes Frame enthält zwei Samples, links und rechts. Buffergrößen werden meist in Frames gezählt, nicht in Samples, weil das einer Audiodauer unabhängig von der Kanalzahl entspricht.

### Zurück zur Luft

An irgendeinem Punkt müssen wir, damit ein Mensch all das wahrnehmen kann, diese ganze schnelle Eimer-Weiterreichungs-Situation in Luft verwandeln. Wenn die Audio-Engine jeden Buffer mit Samples und Frames befüllt, ihn verarbeitet und an den DAC übergibt, wandelt der DAC die Zahlen zurück in Spannungen, die einen Lautsprecher antreiben, der die Membran so präzise wie er es kann an die angezeigten Positionen bewegt.

Der ganze Zyklus wiederholt sich tausende Male pro Sekunde, schnell genug, dass der Hörer eine kontinuierliche, nahtlose Wellenform wahrnimmt statt einer Folge diskreter Blöcke.

--
## Zur Subtilität

Der Effekt ist bewusst subtil. Es ist keine diskrete Veränderung, die man wie einen EQ hört — es ist eine qualitative Verschiebung in der Art, wie sich Audio als zeitliche Erfahrung anfühlt. Audio hat schon immer durch die Ausnutzung der zeitlichen Auflösung des Ohrs funktioniert: Ein Takt, der schnell genug ist, um die Wahrnehmungsdiskriminierung zu überschreiten, erzeugt die Illusion von Kontinuität. NOMN operiert an dieser selben Schwelle — nicht indem es den Takt degradiert, sondern indem es ihm die Art strukturierter Instabilität verleiht, die akustische und mechanische Systeme schon immer hatten und digitale Systeme nicht haben.

Ob das für einen bestimmten Hörer, eine bestimmte Aufnahme, eine bestimmte Wiedergabekette zählt, ist eine empirische und keine rhetorische Frage. Wir machen keine Behauptungen darüber, was Sie fühlen werden. Aber wir fühlen es, und hoffen, dass Sie es auch tun werden.