NOMN:时间精细结构增强器
NOMN 究竟在对音频做什么?
数字回放运行在一颗与晶振绑定的时钟之上,其时序稳定性比任何自然声学源紧致了数个数量级。晶振当然有可测量的相位噪声与 jitter——我们并不否认——但相对于任何物理声源产生的丰富时间变化,这些偏差小到几乎可以忽略,并且统计上是无结构的。在听觉的自然史中,从未存在过时间上如此刚直的声源。
NOMN 引入的,正是自然声源拥有、而被网格锁死的回放所没有的那一类变化。不是作为随机噪声,也不是作为一种可辨识的效果,而是作为听觉系统读作"自然"而非"机械"的、结构化的时间纹理。
这难道不就是一个高级 tremolo,或者一个花哨的 chorus 吗?
新的是驱动它的东西。
一个 tremolo 的控制信号是一个两参数的 LFO。一个 chorus 是一个 4–6 参数的 LFO。一个 humanizer 插件是过滤后的随机噪声。tape emulation 是按古早设备实测的 wow/flutter 频谱来塑形的噪声。所有这些都是"对内容盲目"(content-blind)的,并且都不是从身体出发建模的——它们建模的是对古董设备的怀旧。
NOMN 的调制是"内容自适应"(content-adaptive)的,并且在统计上与自然源的变化匹配。无论你怎么巧妙地调 LFO 的参数,这都不是你能从 LFO 里得到的。正确的类比不是"高级的 tremolo"。它是正弦波振荡器与采样乐器之间的差别。两者都产出周期性的音频。一个听起来像合成器,一个听起来像小提琴,因为驱动它们的信号编码了数量级悬殊的"自然源结构"。同样的原语,根本不同的驱动信号。
音乐认知研究说可察觉的最小时序差大约是 10–50ms。这难道不意味着 NOMN 的微秒级调制在可闻性 / "Just Noticeable Difference"(JND)阈值之下,因此就是那种像贵到离谱的喇叭线一样、挥手即来的发烧友式胡说?
先说 JND 文献实际测的是什么。JND(just-noticeable-difference)阈值——音乐时序里那种处在 10–50ms 区间的数字——测的是:在一个强制选择的认知任务中,一个音相对于另一个音要移动多少,听者才能有意识地分辨出这个偏移。它告诉你的,是时序在何时变得"可被标注为不同"。它并不告诉你听觉系统处理时间所用的分辨率,也不告诉你我们感觉到了什么。
听觉系统实际的时间分辨率,大约比音乐 JND 细三到四个数量级。两条最确立的证据线:
双耳通路把两耳间的时间差(ITD)分辨到约 10 微秒。Klumpp & Eady(1956, J. Acoust. Soc. Am. 28: 859-860)对十位听者测得,对带限噪声的 ITD 辨别阈平均为 9μs,对 1000 Hz 纯音为 11μs。这些阈值在将近七十年间被独立复现。Brughera, Dunai & Hartmann(2013, J. Acoust. Soc. Am. 133: 2839-2855)以现代方法确认了 700–1000 Hz 处刚刚高于 10μs 的阈值。最佳条件下,测得的最低阈值接近单微秒区间。机制也已被很好地理解:内侧上橄榄核中的神经元对来自两耳的相位锁定脉冲做"同时性检测"。一般情况下能遇到的最大 ITD——声音正好来自一侧——大约是 600–700μs,由两耳间距决定(Mills 1958, J. Acoust. Soc. Am. 30: 237-246)。听者在正中线附近能可靠地分辨大约 1 度的角度差。请注意,这些研究的大部分已经有 70 多年了!
单耳通路则通过听觉神经科学所称的 **temporal fine structure(时间精细结构,TFS)** 来编码声音的亚毫秒结构——也就是每一个耳蜗频带内的快速波形振荡,与叠在其上的较慢包络(ENV)调制相区别(Moore 2008, J. Assoc. Res. Otolaryngol. 9: 399-406,标准综述)。TFS 信息携带在听神经纤维脉冲的时序中,对于低于数千赫兹的低频成分,这些脉冲会相位锁定到刺激波形的逐个周期上。这不是假说,也不是有争议的论点,而是听觉外周如何编码时间的标准模型,详尽综述于 Joris, Schreiner & Rees(2004, Physiological Reviews 84: 541-577)。
TFS 是听觉系统用来感知复合音音高、在波动背景噪声下感知言语、在复杂声学环境中做声源分离的东西。Smith, Delgutte & Oxenham(2002, Nature 416: 87-90)用"嵌合"声直接证明了这一点——他们把某一信号的包络与另一信号的 TFS 组合起来构造嵌合声,听者可靠地根据 TFS 而非包络来感知音高与声源位置。TFS 并不专属于现场声、双耳聆听或某种特定的回放情境。它作用于耳蜗收到的一切——包括耳机与喇叭播放录制音乐时输出到耳的声音。当你听一段录音时,音频的时间精细结构在亚毫秒分辨率上被编码进你的听神经脉冲时序之中。这一处理在意识察觉的阈值之下持续发生,这恰恰是为什么音乐 JND 研究测不到它。JND 测的是听者能报告的东西。它测不到他们的听觉系统在做什么。
更重要的一点。**正确的问题不是"听者能否在受控试验里 A/B 区分两个音频文件"。正确的问题是:那种为人类消费而生成音频的技术,是否应当工作在它所服务的感官系统的分辨率上?**
数十年来,音频行业对这个问题的回答是一贯的。录音棚以 96kHz 或 192kHz 录音,并不是因为听者能在每一段曲目上可靠地把这些采样率与 48kHz A/B 区分开,而是因为制作链条不应当在系统的"分辨率端"引入伪影。母带工程师对字时钟(word clock)的 jitter 规格执念深重,远低于经典可闻性阈值——因为他们不希望时钟成为瓶颈。专业音频接口比拼的是亚毫秒的往返延迟。这个原则是一致的:面向人类的音频技术应当工作在感官地板之上,而非之下。
NOMN 处在这条脉络中。被晶振锁定的回放时序在听觉自然史上是前所未有的。从未有过一个时间变化如此之少的声源。问题不是听者能否在逐轨的强制选择测试中把差异说出来。问题是:意在为数十亿小时的人类聆听服务、规模化生成的 AI 音频,是否应当匹配感官系统实际使用的时间分辨率。我们认为应当。在回放链的其他每一个维度上——采样率、比特深度、jitter、延迟、频响、失真——音频行业历史上都同意了这一原则。仅因为相关变化处在意识标注阈值之下,就把"时间微观结构"这一维度当成唯一的例外,是不一致的。
如果"可闻性批评"成立——如果一切低于意识 JND 的东西在感知上都不重要——那么听者就不可能定位声源、不可能在人群中分离不同声音、不可能在同一只喇叭里区分一把真正的小提琴与一段被采样的小提琴。这些判断都依赖于远比音乐 JND 更细的时间分辨率。
好,那这一切挺有意思——但 temporal fine structure 到底是什么?NOMN 相对于已有的 TFS 文献处在什么位置?
TFS 框架在过去二十年里于听觉科学文献中得到大量发展。Moore(2008, J. Assoc. Res. Otolaryngol. 9: 399-406)是 TFS 在音高知觉、掩蔽与言语感知中作用的标准综述。Smith, Delgutte & Oxenham(2002, Nature 416: 87-90)使用"嵌合"声——通过把某一信号的包络与另一信号的 TFS 组合而成——证明听者在音高与声源定位上依赖 TFS,而在安静下的言语识别中依赖 ENV。后续工作(Lorenzi et al. 2006, PNAS 103: 18866-18869; Hopkins & Moore 2009, J. Acoust. Soc. Am. 125: 442-446)表明,TFS 敏感性对噪声环境下的言语感知至关重要,而听障人士对 TFS 敏感性的下降,是他们在噪声中理解言语困难的主要因素之一。
这两点对 NOMN 都有意义。
第一,TFS 是 NOMN 所作用对象的既定技术术语。NOMN 引入的时间微观结构,用该领域的技术语言来说,就是对音频信号的 temporal fine structure 的调制。我们并没有发明一个新的知觉范畴。我们在听觉科学文献已经绘制得相当清楚的一个区域里工作。
第二,已有的 TFS 研究主要聚焦于*失去的东西*:听障人士如何失去 TFS 敏感性、人工耳蜗如何在传递 TFS 信息上挣扎、衰老如何使 TFS 加工退化。NOMN 是从另一边来切入:对那些 TFS 加工完好的听者,一项设计良好的回放技术应当呈现什么样的 TFS 结构?听觉科学界已经用了二十年来记录 TFS 对正常听觉的重要性。音频行业还没有把这件事相应的结论延伸到回放技术的设计上。NOMN 是这一结论的一个应用。
关于范围的一条说明。TFS 中"fine structure"指的是听觉滤波带内的快速载波振荡,通过相位锁定(在数千赫兹以下)以亚毫秒分辨率编码。NOMN 的调制工作在微秒至毫秒的范围内,调制的是音频内容本身的时间结构。两者都处在听觉系统做精细时间工作的同一时间机制里。我们在营销文案中使用"temporal microstructure(时间微观结构)"这个更宽泛的说法,是为了不要声称我们直接在操纵 TFS 研究者用希尔伯特分解技术性地测量的那个具体信号处理量;但我们瞄准的知觉机制,与 TFS 研究自 2000 年代初以来一直在记录的,是同一个。
关于我们不在主张的,做一条说明。我们不是在主张数字音频缺少时间精细结构,也不是在说 NOMN 恢复了这一格式所丢失的什么。一段 PCM 录音对其带内、被充分采样的内容是承载 fine structure 的。NOMN 的主张更窄、也不同:与时钟绑定的回放以完美的时间平稳性呈现那里本就有的东西——这种平稳性是任何自然声学源都没有的。NOMN 把结构化的时间变化引入到回放中。它对源文件中包含多少 fine structure 的细节是不可知的,因为它调制的是信号的时间行为,并不是把细节加回去。
既然亚 JND 的时序差不重要,音频行业为何还花那么大力气把延迟压到最低?
每一位用 DAW 录音的现役音乐家都会调他们的音频缓冲区大小,以尽量把往返延迟压低。专业音频接口比拼的是亚毫秒的往返延迟。Bela 平台正是为了让数字乐器达成亚毫秒的"动作到声音"延迟而被造出来的(McPherson, Jack & Moro 2016, Proc. NIME),原因是大多数常见平台无法满足专业音乐家所需的目标。
关于音乐家实际感受到了什么,已有同行评议的证据是清楚的。Jack, Mehrabi, Stockman & McPherson(2018, Music Perception 36: 109-128)在一台数字打击乐器上测试了职业打击乐手与业余音乐家,受控延迟条件为 0ms、10ms、10ms ± 3ms jitter 与 20ms。两组都把零延迟评得显著优于"10ms+jitter"与 20ms 条件。职业打击乐手对延迟比业余者更敏感,并在叠加延迟下显示出可测的时序表现变化。Schmid 等(2024, Proc. Mensch und Computer, ACM)以 37 名听者测得"附加音频延迟"的 JND——在 64ms 基础延迟下,平均 JND 为 27ms,而音乐素养较高的参与者能可靠地察觉更小的余地。更早的合奏研究记录到真实演奏中能出现高达 50ms 的非同步(Rasch 1979, Acustica 43: 121-131),以及职业打击乐手即便对着节拍器同步,也表现出 10–40ms 的时序 jitter(Dahl 2011, Music Perception 28: 491-503)。
声学鼓从鼓棒接触到声音传至鼓手耳朵之间,有约 2–3ms 的自然延迟,这一数值由声速与鼓面到耳朵的距离决定。这是鼓手神经系统多年练习中所校准过的基线。当电子鼓模块在此之上再叠加 5–10ms 时,职业鼓手会形容这一鼓组"迟钝"、"脱节"、"laggy"。
请注意这里发生了什么。数十年来音频行业事实上接受了这一原则:**回放技术应当工作在感官系统实际使用的时间分辨率上,而非工作在意识 A/B 检测的分辨率上**。没人会主张音频接口应当把延迟目标定在 50ms,因为那是意识 JND。行业把目标定在亚毫秒,是因为那里才是"人机交互"开始崩坏的地方。录音棚以高采样率录音,是为了让制作链条不成为瓶颈。字时钟以低于经典可闻性的 jitter 水平来规范,是同样的原因。你不希望时钟成为系统里最低分辨率的环节。
这正是 NOMN 所应用的原则。与晶振锁定的回放在时间稳定性上比任何自然声学源紧了数个数量级。消费这段音频的感官系统在微秒尺度上分辨时间。听者在 A/B 测试里并不总能用语言标出他们听到了什么——这并不意味着技术应当工作在感官地板之下。它意味着:音频行业应当用它已经用在采样率、比特深度、延迟与 jitter 上的同一种工程纪律,去对待"时间微观结构"。
但喇叭锥盆与房间引入的时间修改远比 NOMN 多得多。难道不会把 NOMN 的效果淹没吗?
相关的差异不在于量级,而在于结构。
房间与喇叭的卷积是"对内容盲目"的、并且是静止的(stationary)。在给定的聆听位置上,房间的脉冲响应是固定的。一记小军鼓的混响尾巴与一段持续人声的混响尾巴接受的是同一个房间处理。这是带一个固定核(fixed kernel)的卷积——量级大,但对内容盲目、时不变。
而听觉系统拥有有文献支撑的、用以把直达路径的源信号与混响反射分离开来的机制。最基础的发现是先到效应(precedence effect),由 Wallach, Newman & Rosenzweig(1949, American Journal of Psychology 62: 315-336)首次系统描述。当两个相同的声音在数毫秒之内分别到达两耳时,听者会把它感知为一个融合的、定位于先到波前位置的单一声音,后到的反射对感知到的"位置"的贡献被强烈压抑。这就是你为何能在一个混响明显的房间里仍然定位喇叭。大脑把空间线索归给直达声,把反射当作"环境"。这一机制延伸入更广义的听觉场景分析(Bregman, 1990, MIT Press)框架——听觉系统使用原始的分组线索把入射声组织成"声源"表征,与"环境上下文"区分开来。后续综述(Litovsky et al. 1999, J. Acoust. Soc. Am. 106: 1633-1654; Brown et al. 2015, J. Acoust. Soc. Am. 137: 776-790)记录到这是一个连续、自动、运行在意识察觉之下的过程。
听觉系统*无法*因式分解出去的、并大量用于声源辨识与自然度判断的,是底层声源固有的时序结构。房间能把已经在那里的东西涂抹模糊。它无法添加本不存在的东西,也无法减掉本就存在的东西。
简单说:一把真小提琴与一段被采样的小提琴,通过同一只喇叭在同一个房间里播放,听者在较长聆听后通常是能区分的。声学链是相同的。差异在于"声源层"的时序结构——它在抵达喇叭之前就已经编码进信号中,因而能挺过这条链条。
DAC 的重建滤波器难道不会把快速的时序调制平滑掉吗?
一条值得讲清楚的一般原则:NOMN 的调制是内容(content),而不是元数据(metadata)。任何处理音频的东西,处理的也就是这一调制;任何不处理音频的东西,也就触不到这一调制。没有一个可以单独被攻击的"通道"存在。同样的逻辑适用于喇叭、房间、听者的 HRTF、外耳道。所有这些都是施加在音频内容上的线性时不变(LTI)操作,没有一个能"选择性地"擦除这一调制。
难道用一点点 chorus 或者过滤后的噪声驱动 varispeed 不能达到同样的效果吗?
差别在于听觉系统对不同种类变化的反应。LFO 驱动的调制是周期的,而听觉系统在意识察觉之下就能检测到周期性。微妙的周期调制即便听者说不出原因,也会被听成"晃悠悠的"或"带效果的"。过滤后的噪声调制是非周期的,但对内容盲目——听觉系统同样会把它读作对自然声源而言"外来",因为自然声源不会产生统计上为"白噪"的时序变化。自然的时序变化具有特定结构:长程相关与内容相关——这些已在人类演奏中被直接测量。Hennig(2014, PNAS 111: 12974-12979)记录到职业鼓手演奏中的时序偏差表现为长程(1/f 型)相关,而非白噪统计——这一发现与人类运动表现中关于时间结构的更宽泛工作一致(Gilden, Thornton & Mallon 1995, Science 267: 1837-1839)。你的调制越是接近这一结构,听觉系统就越不会把它标记为"外来"。
NOMN 的调制匹配这一结构。轻量的 chorus 或 1/f 噪声不匹配。
还有一个更微妙的版本,值得直接回答。任何足够快速的"时间轴"调制都会改变信号的时间精细结构,不管驱动它的控制信号是什么。这只是该操作的物理本性,对 LFO 成立、对 1/f 噪声成立、对 NOMN 也成立。但改变 TFS 并不自动有益。听觉系统会区分"匹配自然源统计的 TFS 变化"与"不匹配的 TFS 变化"。周期调制会被读作效果。白噪调制会被读作故障。只有承载着"自然时间变化"统计结构的调制,才会被读作自然。varispeed 引擎是机制。控制信号则决定着由此产生的 TFS 修改,是听觉系统欢迎的,还是会被标记的。机制是通用的,结构则不是。
这难道没有人尝试过吗?NOMN 不就是另一个 MQA 或 C Wave 吗?
C Wave 主张 PCM 是"不连续的",而大脑会检测到这种不连续。他们的方案是一种"用来填空的"混响。我们不分享这个诊断。在 PCM 上跑的混响算法仍然是 PCM,而 Shannon-Nyquist 已经保证:恰当带限的 PCM 在奈奎斯特频率之内与连续波形数学上等价。数字信号里没有"空"可以被填。我们并不是在主张去修补 PCM 内部的什么东西。我们主张的是:自然声学源具有时间微观结构,而与时钟绑定的回放没有——这是一种不同的主张,它立足于自然声源的物理性质,而不是立足于关于采样理论的有争议的论断。
从那些尝试中得到的最大教训:不要与采样理论开战,不要主张你测不到的东西,不要把独立测量当成敌人。
这与 humanizer 插件有什么不同?
两点不同。第一,humanizer 加入的是随机变化。NOMN 加入的是匹配自然源统计的结构化变化。随机并不等于自然。在人类运动时序里被记录到的长程相关结构(Gilden et al. 1995; Hennig 2014),与大多数 humanizer 产出的白噪分布是范畴上不同的,而听觉系统对这种区别会有反应。
第二,humanizer 工作在音频渲染之前的 MIDI 事件时序上。NOMN 工作在信号层面的音频上。对一段量化过的 MIDI 小军鼓使用 humanizer 会移动那一击。NOMN 则调制音频本身的回放。不同的操作、不同的信号链位置、不同的效果。humanizer 没办法 humanize 一段成品音频文件。NOMN 可以。
时间调制是可闻的吗?
如果你说的是"听者能否把 NOMN 识别成一个可辨认的效果",一般来说不能,而这正是设计意图。一个听不出来的 flanger 是在它的目的上失败了;一个作为"处理"被听出来的 NOMN 也是在它的目的上失败了。它们瞄准的是相反的结果。
如果你说的是"听者能否在受控试验中把 NOMN 处理过的音频与未处理的 A/B 区分开",那是一个经验性问题——我们打算用合规的、独立的、预注册的知觉研究去考察,并会公布结果。但它也不是决定这项技术是否重要、是否值得追求或支持的那个问题。
相关的问题,是音频行业在回放链的其他每一个维度上已经回答了几十年的那个问题:技术是否工作在感官系统实际使用的时间分辨率上?对于采样率、比特深度、延迟、jitter、频响,行业一贯地回答"是"。制作链应当对齐到感官地板,而不是对齐到意识 A/B 检测阈值。我们把同样的工程纪律用在时间微观结构上。听者能否在逐轨的强制选择测试中用语言把差异说出来,与服务于数十亿小时人类聆听的技术是否应当匹配感官分辨率,是两个不同的问题。
为什么叫 NOMN?最后那个 N 是不是不发音?
我可以在哪里读到你们所引用的听觉科学方面的更多内容?
INTERAURAL TIME DIFFERENCE THRESHOLDS
— Klumpp, R.G. & Eady, H.R. (1956). "Some Measurements of Interaural Time Difference Thresholds." Journal of the Acoustical Society of America 28(5): 859-860. The original measurement: 9μs threshold for band-limited noise, 11μs for 1000-Hz tone, 28μs for clicks (75% correct discrimination, ten listeners).
— Mills, A.W. (1958). "On the Minimum Audible Angle." Journal of the Acoustical Society of America 30(4): 237-246. Foundational measurement of angular acuity in sound localization (~1° near midline).
— Brughera, A., Dunai, L. & Hartmann, W.M. (2013). "Human interaural time difference thresholds for sine tones: The high-frequency limit." Journal of the Acoustical Society of America 133(5): 2839-2855. Modern confirmation of ~10μs thresholds for pure tones at mid-frequencies, with high-frequency cutoff around 1.4 kHz.
NEURAL CODING OF TEMPORAL STRUCTURE
— Joris, P.X., Schreiner, C.E. & Rees, A. (2004). "Neural Processing of Amplitude-Modulated Sounds." Physiological Reviews 84(2): 541-577. The standard review on how the auditory system encodes temporal modulation for source localization, identification, and parsing.
— Moore, B.C.J. (2008). "The role of temporal fine structure processing in pitch perception, masking, and speech perception for normal-hearing and hearing-impaired people." Journal of the Association for Research in Otolaryngology 9(4): 399-406. The canonical review of temporal fine structure (TFS) and its perceptual role.
— Smith, Z.M., Delgutte, B. & Oxenham, A.J. (2002). "Chimaeric sounds reveal dichotomies in auditory perception." Nature 416: 87-90. The foundational experimental demonstration that listeners rely on TFS for pitch and localization while ENV dominates speech recognition in quiet.
— Lorenzi, C., Gilbert, G., Carn, H., Garnier, S. & Moore, B.C.J. (2006). "Speech perception problems of the hearing impaired reflect inability to use temporal fine structure." Proceedings of the National Academy of Sciences 103: 18866-18869. Direct evidence for TFS's role in speech-in-noise perception.
SOURCE/ENVIRONMENT SEPARATION
— Wallach, H., Newman, E.B. & Rosenzweig, M.R. (1949). "The Precedence Effect in Sound Localization." American Journal of Psychology 62(3): 315-336. The foundational paper showing that listeners localize sounds based on first-arriving wavefront, suppressing reverberant reflections.
— Bregman, A.S. (1990). Auditory Scene Analysis: The Perceptual Organization of Sound. MIT Press. The standard reference text on how the auditory system organizes complex sound mixtures into source representations.
— Litovsky, R.Y., Colburn, H.S., Yost, W.A. & Guzman, S.J. (1999). "The Precedence Effect." Journal of the Acoustical Society of America 106(4): 1633-1654. Comprehensive review of the precedence effect and echo suppression literature.
LATENCY PERCEPTION AND MUSICAL PERFORMANCE
— Jack, R.H., Mehrabi, A., Stockman, T. & McPherson, A. (2018). "Action-sound Latency and the Perceived Quality of Digital Musical Instruments." Music Perception 36(1): 109-128. Professional percussionists rated 10ms±3ms jitter and 20ms latency conditions as significantly lower quality than zero latency.
— McPherson, A., Jack, R. & Moro, G. (2016). "Action-Sound Latency: Are Our Tools Fast Enough?" Proc. NIME 2016. Survey demonstrating most digital musical instrument platforms fail to meet sub-millisecond latency targets; motivates the Bela platform.
— Schmid, A., et al. (2024). "Measuring the Just Noticeable Difference for Audio Latency." Proc. Mensch und Computer 2024 (ACM). Mean JND of 27ms at 64ms base latency, with musically sophisticated listeners detecting smaller margins.
— Dahl, S. (2011). "Striking Movements: A Survey of Motion Analysis of Percussionists." Music Perception 28(5): 491-503. Documentation of percussionist timing variability.
NATURAL TIMING STATISTICS
— Hennig, H. (2014). "Synchronization in human musical rhythms and mutually interacting complex systems." Proceedings of the National Academy of Sciences 111(36): 12974-12979. Direct measurement of 1/f long-range correlations in professional drum performance timing.
— Gilden, D.L., Thornton, T. & Mallon, M.W. (1995). "1/f noise in human cognition." Science 267: 1837-1839. Broader finding of 1/f temporal structure across human cognitive and motor performance.
我们引用这些工作,是因为我们希望 NOMN 关于知觉的论断与听觉科学界其他工作建立在同一份基础上。独立的测量与核验是这个领域向前的方式,我们也不希望从中被豁免。
人类最快的感官是听觉,差距超过10倍。人耳能检测到约10微秒的时间差异。如果你正在阅读的显示器以60hz刷新,那比你的耳朵能分辨的速度慢一千倍以上。
地球上的每一个数字音频源都有一个共同特性:远比自然中任何事物都更稳定的时序。DAW、数字合成器、鼓机、采样器、流媒体音频——所有这些在设计上都是时间刚性的。发烧友使用10MHz外部时钟追求愈发紧致的稳定性。"保真度"的工作定义已经成了:最小的频率不稳定、最小的时序变化。
与此同时,行业花了五十年优化频谱保真度,构建了一套用于音乐创作和聆听的数字基础设施——其运作精度比它应该服务的系统(即听众)的时间敏感度低了几个数量级。
自然界中的声音从来不会在时间上刚直。每一件原声乐器、每一个人声、每一丝穿过环境的风,都展现出源自其产生物理过程的连续微秒级时序变化。这些变化不是缺陷——它们正是听觉系统识别为"活着"的东西的一部分。所有音频技术的基石子技术是一个底层的周期性,即时钟。无论是被调制的电频率、旋转的蜡筒、唱片刻纹机还是数模转换器,总有一种方法去量化并在整个系统中维持新生成量子的逻辑结构。如果时钟退化,幻觉就会崩塌:就像翻得太慢的翻页动画,感知的"黑客手段"就会失败。
唱片机和模拟磁带机的声音并不更好——它们的感觉更好。它们是微时序增强器,意外地向信号引入了随机的时间变化。转盘或磁带走带机构的机械不稳定性在时域中引入了与频率不稳定性耦合的变化。这是人们通过黑胶唱片、真空管和模拟信号链花费巨资追求的品质——往往无法说出自己听到的是什么,因为他们听到的不是频谱层面的东西,而是时间层面的。
NOMN为数字音频引入时间上的生命力。它是一个时间精细结构增强系统,以人类感知系统的分辨率,向任何音频流引入人类结构化的、不重复的时序变化。
二十世纪初,艺术家马塞尔·杜尚(Marcel Duchamp)造了"inframince(极微差/infrathin)"一词,用来命名外观上完全相同的两个事物之间那种"分隔性的差异"——同一个模具里出来的两个物体,相同,却又不同。
NOMN取下"生而活着的时间"与"机械时间"之间的极微差(inframince),把它变得可操作。
--
## 工作原理
NOMN建立在一个有机时间行为的生成模型之上,该模型派生自八十种口语。运行时,系统产生连续的时序变化流——每秒超过1,000次更新——并将其应用于输入音频。原始内容完整保留。信号中既不添加也不移除任何东西。仅在低于swing或groove阈值、但在感知效果阈值之内的分辨率上,丰富时间微观结构。
这些变化不是随机的,无法用jitter复制。它们不是周期性的。它们不循环。它们是上下文结构化的、不重复的——为通过的每一刻音频实时生成。
NOMN并不主张数字音频缺失时间精细结构,也不主张它恢复了格式丢失的某种东西。一段数字录音对其信号的带内内容是承载精细结构的。NOMN的前提不同:与时钟绑定的回放以完美的时间平稳性呈现"那里本就有的东西"——这种平稳性是任何自然声学源都没有的。NOMN把结构化的时间变化引入到回放中。
使用场景
母带处理与后期制作
与EQ、压缩、空间处理和响度正交的音频增强新维度。适用于任何母带、任何流派、任何录音时代。
流媒体与播放
可部署为流媒体基础设施或播放设备中的实时处理层。在不修改内容的情况下增强通过的所有音频——音乐、播客、电影音频。
硬件集成
系统的计算足迹足够小,可嵌入部署在音频DSP芯片上——小到可装入耳机、车载主机和便携播放器。可授权集成到消费级音频硬件、汽车音频系统和专业设备中。
--
## NOMN不是什么
NOMN不是均衡器、压缩器、空间处理器或效果器。它不修改频率内容、动态范围、立体声像或响度。它不添加谐波、噪声或饱和。修改发生在时域中。
--
## 技术说明
NOMN的时序变化在微秒至毫秒尺度上运作——与模拟播放系统的时序不稳定性处于同一数量级,并且更细致,但是结构化的而非机械的,不重复的而非周期性的。
系统包含持续的质量验证,监控预期时序与渲染时序之间的关系,有助于确保增强效果在从处理到输出的完整信号链中得以保持。零差测试分析显示并未引入额外的谐波、噪声、EQ或空间处理——输入与输出之间的差异在时域中。
--
## 格式与访问
API: RESTful HTTP端点。发送音频,接收处理后的音频。可选控制参数。自动模式可用。
授权: 可用于集成到硬件、软件和流媒体基础设施中。按设备、按曲目或企业授权模式。
专利状态: 专利申请中(日本,2026年)。POLYTOPE KK。
--
## 数字音频是什么?为什么它这么令人困惑?
数字音频里有某种"几乎本质上"令人困惑的东西,它远不如"屏幕上一个个像素拼出一幅图像"那么直觉。我们每个人都曾被它绕晕,在网上的讨论区与发烧友社区里,你也能找到极其分歧的理解。我们把一切音频都视作一种"知觉上的客厅戏法"——它出人意料地有效,并且与某种比"现实主义"更强的东西(幻想)一同工作——而在这种力量之下,是一大堆数字,它们以某种方式把压缩波推向你的身体,推得足够逼真,以至于我们这些小小的人类大脑相信它"近乎真实",并在其中找到彼此连接。
数字音频在编码端——录音,或者说生成一份音频文件——是这样工作的:对一个连续变化的信号做非常快的测量,并把这些测量值作为一串数字储存下来。
### 数字音频最小的单位及其性质
一个采样(sample)就是这些测量中的一个,是一个整数(无小数)或浮点数(带小数),代表波形在某一瞬间的振幅。与模拟中心论的社区描述相反,这些并不是"0 和 1",而是一段压缩波在时间上的快速作图。
采样率决定这些测量发生的频率,单位是"每秒采样数"。在 96kHz 下,系统每秒捕获 96,000 个振幅值,每一个都是波形在那一瞬间所处位置的快照。在 44.1kHz(CD)下,每秒 44,100 个。一个常见的直觉是文件在两个采样之间"什么都没有"——但这是关于此事最具误导性的想法。一段被适当带限的、采样过的信号,是原始波形在奈奎斯特频率之内的完整表征。采样之间没有缺失的信息。DAC 的重建滤波器并不在猜测或填补一个缺口,而是在重建那一条由这些采样唯一描述的连续波形。192kHz 或 DSD 这样的更高采样率并不向耳朵添加它原本所缺失的信息——它们只是把重建滤波器的工作从可闻带宽里更进一步推远。DSD(Direct Stream Digital)是一族采样率,从基础的 2.8224 MHz(DSD64)一直到 22.5792 MHz(DSD512)。DSD 是一种 1-bit 格式,意味着每个采样只存储信号是上行还是下行,而极高的时钟率通过噪声整形来补偿这种很低的位深。
采样本身并不包含任何关于频率、音色或音高的内容。这正是令人困惑之处。在这些极短的瞬间里,除了一个振幅值之外,并没有任何"分析"在发生。那些性质是从许多采样横跨形成的"模式"中涌现出来的。喇叭锥盆只需要知道它在每一刻"该在哪里",而一连串"该在哪里"的值就足够勾勒出任何波形。喇叭用这些动作位移空气,这种位移产生压缩波,让你的身体能够感知。
奈奎斯特(Nyquist)界限是另一个常被牵进音频质量讨论的、令人困惑的术语。它是一种描述"以有限速率采样所带来的实际物理后果"的方式:想要捕获一条以频率 F 抖动的波,你需要以"每秒多于 2F"的速率采样——因为更慢的采样在每个波周期里点数不足,无法被无歧义地重建。所以你可以想象一条快速飞过的波,你必须快速触碰它足够多的点,使得某人——在这里是机器——能够通过至少捕获其高点与低点来理解它的"大小"。
我们在这里稍作停顿。我们字面上在谈论"空气中波的大小"。人类能听到的最高频率对应大约一片指甲宽度的波长。人类听力的上限大约是 20kHz,这就是为什么 44.1kHz 与 48kHz 成为标准——两者都留出了一段可闻带宽之上的舒适余量。更高的 96kHz 或 192kHz 并不扩展你能听到的范围。它们只是让 DAC 的模拟重建滤波器在可闻区间内有更多余地干净工作。
44.1kHz 采样 → 22.05kHz 最高频率 → 15.6 mm 波长
48kHz 采样 → 24kHz 最高 → 14.3 mm
96kHz 采样 → 48kHz 最高 → 7.1 mm
192kHz 采样 → 96kHz 最高 → 3.6 mm
384kHz 采样 → 192kHz 最高 → 1.8 mm
768kHz 采样 → 384kHz 最高 → 0.89 mm
DSD 的工作方式不同,在此表中并不直接可比。DSD512 的原始时钟率是 22.5792 MHz,但这是 1-bit 调制器的时钟,并不是 PCM 的奈奎斯特界限。其可用音频带宽由噪声整形滤波器塑造,而不是由采样率的一半决定。
位深(Bit depth)是每次测量被存得多精确。24-bit 给出每个采样大约 1670 万个可能的振幅值,由此定下动态范围(响与轻之间潜在的差距)与本底噪声。请注意,"位深"本身也并不"知道"任何事,其作用同样是高速、聚合性的。并不是因为位深变高了,你的电脑就突然"知道"它现在能渲染弓子触弦的声音。
### 桶、块与帧
一个缓冲区(buffer)是一小段连续采样的"块",系统把它当作一组来处理——因为在软件、驱动与硬件之间一个采样一个采样地传递会效率低到离谱。通用计算机即便到今天,要以极高速度移动音频而不带大量 jitter 仍很吃力。一个典型的缓冲区可能是 64、128 或 512 个采样组成的桶。在 96kHz 下,64 个采样的缓冲区代表约 0.67 毫秒的音频。更小的缓冲区意味着更低的延迟——信号进入与离开系统之间的时间——但需要更频繁的处理,对 CPU 的要求更高,也更容易受操作系统、硬件及其固件各种"怪事"与干扰的影响。更大的缓冲区对处理器更友好(啊,放松),但会引入明显的延迟——这对现场演奏与监听是至关紧要的,因为人类是极其了不起的"时间守门人"。
当音频有多个声道时——立体声、环绕声或更多——每一个时刻在每个声道上各有一个采样,所有声道上同时发生的那一组采样被称作一个帧(frame)。一段 96kHz 的立体声录音每秒产生 96,000 个帧,每帧包含两个采样,左与右。缓冲区大小通常以"帧"而非"采样"计数,因为帧才是与"音频时长"对应、且与声道数无关的单位。
### 回到空气
那么在某个点上,要让一个人去感知这一切,我们必须把这整场"桶在快速传递"的局面变成空气。当音频引擎用采样与帧填满每一个缓冲区、处理它、并把它交给 DAC 时,DAC 再把这些数字变回电压,驱动喇叭,让锥盆尽可能精确地走到指示的位置。
整个循环以每秒数千次的速率重复,足够快,以至于听者把它知觉为一条连续、无缝的波形,而不是一连串离散的块。
--
## 关于微妙性
效果在设计上是微妙的。它不是像EQ那样能听到的离散变化——而是音频作为时间体验"如何被感受"的质性转变。音频一直通过对耳朵时间分辨率的利用来运作:足够快的时钟超过感知辨别力,便产生连续性的幻觉。NOMN在同一阈值上运作——不是通过降低时钟品质,而是赋予它一种结构化的不稳定性:声学和机械系统一直具有、而数字系统所缺失的那种不稳定性。
这对特定听众、特定录音、特定播放链是否重要,是一个经验问题,而非修辞问题。我们不对你会感受到什么做出断言——但我们感受到了,也希望你能感受到。