NOMN: 시간 미세구조 인핸서
NOMN은 실제로 오디오에 무엇을 하고 있나요?
디지털 재생은 크리스털에 고정된 클록 위에서 돌아가며, 그 타이밍 안정성은 어떤 자연 음향원보다도 자릿수 단위로 더 엄격합니다. 크리스털에도 측정 가능한 위상 잡음과 지터는 있습니다 — 그 점을 부정할 생각은 없습니다 — 그러나 그러한 편차는 모든 물리 음원이 만들어내는 풍부한 시간적 변동과 비교하면 사라질 만큼 작고, 통계적으로 무구조합니다. 청각의 자연사에서 이토록 시간적으로 경직된 음원은 일찍이 존재한 적이 없습니다.
NOMN은 자연원이 가지고 있으나 그리드에 고정된 재생이 갖지 못한 종류의 변동을 도입합니다. 무작위 잡음으로서가 아니라, 인식 가능한 이펙트로서도 아니라, 청각계가 기계적인 것이 아니라 자연스러운 것으로 읽어내는, 구조화된 시간적 패터닝으로서 말입니다.
이건 결국 진화된 트레몰로나 멋들어진 코러스가 아닌가요?
새로운 것은 그것을 구동하는 것입니다.
트레몰로의 제어 신호는 2-파라미터 LFO입니다. 코러스는 4~6 파라미터 LFO. Humanizer 플러그인은 필터링된 무작위 잡음. 테이프 에뮬레이션은 빈티지 기기의 실측 와우/플러터 스펙트럼에 맞도록 정형된 잡음입니다. 이것들은 모두 내용에 대해 맹목적(content-blind)이며, 어느 것도 신체로부터 모델링된 것이 아닙니다. 그것들은 빈티지 기기에 대한 향수로부터 모델링된 것입니다.
NOMN의 모듈레이션은 내용 적응적(content-adaptive)이며, 자연원의 변동과 통계적으로 정합합니다. 이것은 아무리 교묘하게 파라미터를 만져도 LFO로는 얻을 수 없습니다. 올바른 비유는 "진화된 트레몰로"가 아니라, 사인파 오실레이터와 샘플링된 악기의 차이입니다. 둘 다 주기적인 오디오를 만들어냅니다. 한쪽은 신스로 들리고, 다른 한쪽은 바이올린으로 들립니다 — 왜냐하면 그것들을 구동하는 신호가 자연원에서 유래한 구조를 자릿수 단위로 다른 양으로 부호화하고 있기 때문입니다. 프리미티브는 같지만, 구동 신호는 근본적으로 다릅니다.
음악 인지 연구는 지각 가능한 최소 타이밍 차이가 10~50ms 정도라고 말합니다. 그렇다면 NOMN의 마이크로초 스케일 모듈레이션은 가청성/"Just Noticeable Difference"(JND) 역치 이하이고, 따라서 터무니없이 비싼 스피커 케이블 같은 근거 없는 오디오파일류의 헛소리가 아닌가요?
먼저, JND 문헌이 실제로 측정하는 것에 대해서. 10~50ms 범위의 음악적 타이밍에 대한 JND(just-noticeable-difference) 역치는, 강제 선택형 인지 과제에서, 한 노트가 다른 노트에 대해 얼마나 어긋나야 청자가 그 어긋남을 의식적으로 동정할 수 있는지를 측정합니다. 이것이 알려주는 것은 타이밍이 언제 차이로서 *라벨 가능*해지는가입니다. 청각계가 시간을 처리하는 분해능이나 우리가 감각하는 것에 대해서는 아무것도 말하지 않습니다.
청각계의 실제 시간 분해능은 음악적 JND보다 대략 세~네 자릿수 더 미세합니다. 가장 확립된 두 가지 증거 계통:
양이(binaural) 경로는 양이 간 시간차를 약 10마이크로초까지 분해합니다. Klumpp & Eady(1956, J. Acoust. Soc. Am. 28: 859-860)는 10명의 청자에서 대역 제한 잡음으로 9μs, 1000Hz 순음으로 11μs의 평균 ITD 변별 역치를 측정했습니다. 이 역치들은 약 70년에 걸쳐 독립적으로 재현되어 왔습니다. Brughera, Dunai & Hartmann(2013, J. Acoust. Soc. Am. 133: 2839-2855)은 현대적 기법을 사용해 700~1000Hz에서 10μs를 약간 웃도는 역치를 확인했습니다. 최적 조건 하에서 최소 측정 역치는 단일 마이크로초 영역에 가까워집니다. 메커니즘도 충분히 이해되어 있습니다: 내측 상올리브의 신경 세포가 양 귀로부터의 위상 동기 스파이크에 대해 일치 검출(coincidence detection)을 수행합니다. 통상적으로 마주치는 최대 ITD는 — 음원이 정확히 한쪽 옆에 있을 때 — 양이 간 거리로 결정되는 약 600~700μs입니다(Mills 1958, J. Acoust. Soc. Am. 30: 237-246). 청자는 정중선 부근에서 약 1도의 각도차를 확실하게 분해합니다. 이 연구의 대부분이 이미 70년 이상 전의 것임에 주목해 주세요.
단이(monaural) 경로는 청각 신경과학이 **temporal fine structure(시간적 미세 구조, TFS)** 라 부르는 것 — 각 달팽이관 필터 대역 내의 급속한 파형 진동 — 을 통해 소리의 서브밀리초 구조를 부호화합니다. 이것은 그 위에 중첩되는, 보다 완만한 포락선(ENV) 변조와는 구별됩니다(Moore 2008, J. Assoc. Res. Otolaryngol. 9: 399-406, 정평 있는 리뷰). TFS 정보는, 저주파 성분에 대해 수 킬로헤르츠까지 자극 파형의 개별 사이클에 위상 동기하는 청신경 섬유 스파이크의 타이밍에 담깁니다. 이것은 가설도 아니고 논쟁 중인 주장도 아니며, 청각 말초가 시간을 어떻게 부호화하는지에 대한 표준 모델이고, Joris, Schreiner & Rees(2004, Physiological Reviews 84: 541-577)에 포괄적으로 리뷰되어 있습니다.
TFS는 청각계가 복합음의 음높이 지각, 변동하는 배경 잡음 속에서의 음성 지각, 복잡한 음향 환경에서의 음원 분리를 위해 사용하는 것입니다. Smith, Delgutte & Oxenham(2002, Nature 416: 87-90)은 한 신호의 포락선을 다른 신호의 TFS와 결합한 "키메라" 음을 구성함으로써 이것을 직접적으로 보였습니다. 청자는 포락선이 아니라 TFS에 근거해 음높이와 음원 위치를 확실하게 지각했습니다. TFS는 라이브 음, 양이 청취, 혹은 특정 재생 상황에 한정된 것이 아닙니다. 달팽이관이 받아들이는 모든 것 — 녹음 음악을 재생하는 헤드폰이나 스피커의 출력을 포함해 — 에 대해 작용합니다. 녹음을 들을 때, 오디오의 시간적 미세 구조는 서브밀리초의 분해능으로 당신의 청신경 스파이크 타이밍에 부호화됩니다. 이 처리는 의식적 자각의 역치 이하에서 연속적으로 일어나며, 바로 그것이 음악적 JND 연구가 그것을 측정하지 못하는 이유입니다. JND는 청자가 보고할 수 있는 것을 측정합니다. 청각계가 하고 있는 일을 측정하는 것이 아닙니다.
보다 중요한 논점. **올바른 질문은 청자가 통제된 시행에서 두 개의 오디오 파일을 A/B 변별할 수 있는가가 아닙니다. 올바른 질문은 인간의 소비를 위해 오디오를 생성하는 기술이, 그것이 봉사해야 할 감각계의 분해능에서 동작해야 하는가입니다.**
오디오 산업은 이 질문에 수십 년 동안 일관된 답을 내놓아 왔습니다. 스튜디오가 96kHz나 192kHz로 녹음하는 것은, 청자가 모든 트랙에서 그것들과 48kHz를 확실하게 A/B 변별할 수 있기 때문이 아니라, 시스템의 분해능 측 말단에서 프로덕션 체인이 아티팩트를 혼입시켜서는 안 되기 때문입니다. 마스터링 엔지니어는 고전적인 가청성 역치를 훨씬 밑도는 수준에서 동작하는 워드 클록의 지터 사양을 집요하게 파고드는데, 그것은 클록이 병목이 되기를 원치 않기 때문입니다. 프로 오디오 인터페이스는 서브밀리초의 라운드트립 레이턴시로 경쟁합니다. 원리는 일관됩니다: 인간을 마주하는 오디오 기술은 감각의 바닥(floor)을 밑도는 것이 아니라 웃돌도록 동작해야 합니다.
NOMN은 이 계보에 위치합니다. 크리스털에 고정된 재생 타이밍은 청각의 자연사에서 전례 없는 것입니다. 이토록 시간적 변동이 적은 음원은 일찍이 존재한 적이 없습니다. 질문은 청자가 트랙별 강제 선택 테스트에서 차이를 언어화할 수 있는가가 아닙니다. 질문은, 수십억 시간의 인간 청취를 향하는, 스케일된 AI 생성 오디오가 감각계가 실제로 사용하는 시간 분해능과 일치해야 하는가입니다. 우리는 그래야 한다고 생각합니다. 오디오 산업은 샘플링 레이트, 비트 심도, 지터, 레이턴시, 주파수 응답, 왜곡 등 재생 체인의 다른 모든 차원에 대해 역사적으로 일관되게 이 원리에 동의해 왔습니다. 관련 변동이 의식적 라벨링 역치 아래에 있다는 이유만으로 시간적 미세 구조의 차원을 유일한 예외로 취급하는 것은 정합성을 결여합니다.
만약 가청성 비판이 성립한다면 — 의식적 JND 이하의 모든 것이 지각적으로 무관하다면 — 청자는 음원을 정위할 수 없고, 군중 속에서 목소리를 구별할 수 없고, 같은 스피커로 재생되는 진짜 바이올린과 샘플링된 바이올린을 가려낼 수 없을 것입니다. 이 모든 판단은 음악적 JND보다 훨씬 미세한 시간 분해능에 의존합니다.
좋습니다, 이건 꽤 흥미로운데, 정확히 temporal fine structure란 무엇이고, NOMN은 확립된 TFS 문헌에 대해 어디에 위치하나요?
TFS 프레임워크는 지난 20년에 걸쳐 청각 과학 문헌 속에서 광범위하게 발전해 왔습니다. Moore(2008, J. Assoc. Res. Otolaryngol. 9: 399-406)는 음높이 지각, 마스킹, 음성 지각에서의 TFS의 역할을 다루는 표준적인 리뷰입니다. Smith, Delgutte & Oxenham(2002, Nature 416: 87-90)은 한 신호의 포락선을 다른 신호의 TFS와 결합해 구축한 "키메라" 음을 사용해, 정적(靜寂) 하에서의 음성 인식에서는 포락선에 의존하는 한편, 음높이와 음원 정위에서는 TFS에 의존함을 보였습니다. 이후의 연구(Lorenzi et al. 2006, PNAS 103: 18866-18869; Hopkins & Moore 2009, J. Acoust. Soc. Am. 125: 442-446)는 TFS 감도가 잡음 환경 하에서의 음성 지각에 결정적이며, 난청자의 TFS 감도 저하가 잡음 속에서 음성을 이해하기 어렵게 만드는 주요 요인임을 보였습니다.
이것은 NOMN에게 두 가지 점에서 중요합니다.
첫째, TFS는 NOMN이 작용하는 대상을 위한 확립된 기술 어휘입니다. NOMN이 도입하는 시간적 미세 구조는, 이 분야의 기술 언어로 말하면 오디오 신호의 temporal fine structure에 대한 모듈레이션입니다. 우리는 새로운 지각 카테고리를 발명하고 있는 것이 아닙니다. 청각 과학 문헌의 잘 지도화된 영역에서 작업하고 있습니다.
둘째, 기존의 TFS 연구는 주로 *잃는 것*에 초점을 맞춥니다. 난청자가 어떻게 TFS 감도를 잃는가, 인공 와우가 어떻게 TFS 정보를 전달하는 데 고전하는가, 노화가 어떻게 TFS 처리를 퇴행시키는가. NOMN은 이 질문을 반대편에서 다룹니다: TFS 처리가 온전한 청자에 대해, 잘 설계된 재생 기술은 어떤 종류의 TFS 구조를 제시해야 하는가? 청각 과학 커뮤니티는 정상 청자에게 TFS가 얼마나 중요한지를 20년에 걸쳐 기록해 왔습니다. 오디오 산업은 재생 기술 설계에 관한 대응하는 결론을 아직 끌어내지 못했습니다. NOMN은 그 결론의 한 가지 응용입니다.
범위에 대한 주석. TFS에서의 "fine structure"는 청각 필터 대역 내의 급속한 캐리어 발진을 가리키며, 수 킬로헤르츠까지의 위상 동기를 통해 서브밀리초 분해능으로 부호화됩니다. NOMN의 모듈레이션은 마이크로초에서 밀리초의 스케일 폭에 걸쳐, 오디오 내용 자체의 시간 구조를 변조합니다. 양쪽 모두 청각계가 세밀한 타이밍 작업을 하는 시간 영역에 위치합니다. 마케팅 카피에서는 "temporal microstructure(시간적 미세 구조)"라는 보다 넓은 표현을 사용하는데 — 이는 TFS 연구자가 힐베르트 분해로 기술적으로 측정하는 특정 신호 처리량을 직접 조작한다고 주장하지 않기 위함입니다 — 그러나 우리가 표적으로 삼는 지각 메커니즘은 TFS 연구가 2000년대 초부터 기록해 온 것과 동일합니다.
주장하지 않는 것에 대한 주석. 우리는 디지털 오디오에 시간적 미세 구조가 결여되어 있다고 주장하는 것도, NOMN이 포맷이 잃어버린 무언가를 복원한다고 주장하는 것도 아닙니다. PCM 녹음은 신호의 대역 내에서 충분히 해상된 내용에 대한 fine structure를 담고 있습니다. NOMN의 주장은 그보다 좁고 다릅니다: 클록에 고정된 재생은 거기에 있는 fine structure를 완전한 시간적 정상성(stationarity)과 함께 제시합니다 — 어떤 자연 음향원도 갖지 못한 정상성입니다. NOMN은 구조화된 시간 변동을 재생에 도입합니다. 소스 파일이 얼마나 많은 fine structure의 세부를 담고 있는지에는 무관합니다 — 왜냐하면 그것은 세부를 더해 되돌리는 것이 아니라 신호의 시간적 거동을 변조하기 때문입니다.
서브 JND 타이밍 차이가 문제가 되지 않는다면, 왜 오디오 산업은 레이턴시 최소화에 그토록 많은 노력을 쏟나요?
DAW로 녹음하는 음악가는 모두, 라운드트립 레이턴시를 가능한 한 낮게 유지하기 위해 오디오 버퍼 사이즈를 조정합니다. 프로 오디오 인터페이스는 서브밀리초의 라운드트립 레이턴시로 경쟁합니다. Bela 플랫폼은 디지털 악기를 위해 액션-투-사운드의 서브밀리초 레이턴시를 달성할 목적으로 특별히 만들어졌습니다(McPherson, Jack & Moro 2016, Proc. NIME). 왜냐하면 일반적인 플랫폼의 대부분은 프로 음악가가 필요로 하는 목표를 충족하지 못하기 때문입니다.
음악가가 실제로 느끼는 것에 대한 동료 심사 증거는 명확합니다. Jack, Mehrabi, Stockman & McPherson(2018, Music Perception 36: 109-128)은 프로 퍼커셔니스트와 아마추어 음악가를, 0ms, 10ms, 10ms±3ms 지터, 20ms의 레이턴시 조건으로 통제한 디지털 퍼커션 악기로 테스트했습니다. 두 그룹 모두 제로 레이턴시를 10ms+지터 조건 및 20ms 조건보다 유의하게 고품질로 평가했습니다. 프로 퍼커셔니스트는 아마추어보다 레이턴시에 민감했고, 추가 레이턴시 하에서 타이밍 퍼포먼스에 측정 가능한 변화를 보였습니다. Schmid et al.(2024, Proc. Mensch und Computer, ACM)은 37명의 청자에서 추가 오디오 레이턴시의 JND를 측정해, 베이스 레이턴시 64ms에서 평균 27ms의 JND를 얻었습니다. 음악적으로 숙달된 참가자는 보다 작은 마진도 확실하게 검출했습니다. 그 이전의 앙상블 연구는 실제 연주에서 50ms까지의 비동기가 발생함(Rasch 1979, Acustica 43: 121-131), 프로 퍼커셔니스트가 메트로놈에 동기하고 있을 때조차 10~40ms의 타이밍 지터를 보임(Dahl 2011, Music Perception 28: 491-503)을 기록하고 있습니다.
어쿠스틱 드럼은 스틱의 접촉에서 드러머의 귀에 소리가 도달하기까지 약 2~3ms의 자연스러운 지연이 있습니다 — 드럼에서 머리까지의 거리를 음속으로 나눈 값입니다. 이것은 드러머의 신경계가 오랜 연습을 통해 캘리브레이션해 온 베이스라인입니다. 전자 드럼 모듈이 그 위에 추가로 5~10ms를 얹으면, 프로 드러머는 그 키트를 "둔하다", "끊겨 있다", "랙이 걸린다"고 표현합니다.
여기서 무슨 일이 일어나고 있는지에 주목해 주세요. 오디오 산업은 수십 년 동안 **재생 기술은 의식적인 A/B 검출의 분해능이 아니라, 감각계가 실제로 사용하는 시간 분해능에서 동작해야 한다**는 원리를 받아들여 왔습니다. 의식적 JND가 그렇다는 이유로 오디오 인터페이스가 50ms의 레이턴시를 목표로 해야 한다고 논하는 사람은 아무도 없습니다. 산업이 서브밀리초를 목표로 하는 것은, 거기서 인간과 기계의 상호작용이 무너지기 때문입니다. 스튜디오가 높은 샘플 레이트로 녹음하는 것은 프로덕션 체인이 병목이 되지 않게 하기 위함입니다. 워드 클록이 고전적 가청성 이하의 지터 수준으로 사양화되는 것도 같은 이유입니다. 클록이 시스템 내에서 가장 저분해능의 요소가 되기를 원하지 않는 것입니다.
이것이 바로 NOMN이 적용하는 원리입니다. 크리스털에 고정된 재생은 어떤 자연 음향원보다도 자릿수 단위로 더 엄격한 시간 안정성을 갖습니다. 그 오디오를 소비하는 감각계는 마이크로초 스케일로 시간을 분해합니다. 청자가 A/B 테스트에서 듣고 있는 것을 항상 의식적으로 라벨링할 수 없다는 사실은, 기술이 감각의 바닥 이하에서 동작해야 한다는 것을 의미하지 않습니다. 그것은, 오디오 산업이 샘플 레이트, 비트 심도, 레이턴시, 지터에 이미 적용하고 있는 동일한 엔지니어링 규율을 시간적 미세 구조에 대해서도 적용해야 한다는 것을 의미합니다.
하지만 스피커 콘과 방(room)은 NOMN보다 훨씬 큰 시간적 변형을 도입합니다. 그것이 효과를 삼켜 버리지 않나요?
관련된 차이는 크기가 아닙니다. 구조입니다.
방이나 스피커에 의한 컨볼루션은 내용에 대해 맹목적이고 정상적(stationary)입니다. 주어진 청취 위치에 대해 방의 임펄스 응답은 고정되어 있습니다. 스네어 히트의 잔향과 지속되는 보컬 노트의 잔향은 같은 방 처리를 받습니다. 이것은 고정 커널로의 컨볼루션입니다 — 크기는 크지만, 내용에 맹목적이고 시불변(time-invariant)입니다.
청각계는 직접 경로의 음원 신호와 잔향 반사를 분리하기 위한 충분히 기록된 기제를 가지고 있습니다. 기초적인 발견은 선행 효과(precedence effect)이며, Wallach, Newman & Rosenzweig(1949, American Journal of Psychology 62: 315-336)가 처음으로 체계적으로 기술했습니다. 두 개의 동일한 소리가 양 귀에 수 밀리초 이내로 도래하면, 청자는 그것을 가장 먼저 도래하는 파면의 위치에 정위된 하나의 융합음으로 지각하며, 나중에 도래하는 반사는 지각 정위에 대한 기여가 강하게 억제됩니다. 그래서 잔향이 있는 방에서 스피커를 정위할 수 있는 것입니다. 뇌는 공간적 단서를 직접음에 귀속시키고, 반사를 환경으로 취급합니다. 이 메커니즘은, 청각계가 원시적인 그루핑 단서를 사용해 들어오는 소리를 환경적 맥락과는 별개의 음원 표상으로 조직화하는, 보다 넓은 청각 정경 분석(Bregman, 1990, MIT Press)의 프레임워크로 확장됩니다. 이후의 리뷰(Litovsky et al. 1999, J. Acoust. Soc. Am. 106: 1633-1654; Brown et al. 2015, J. Acoust. Soc. Am. 137: 776-790)는 이것이 의식적 자각 아래에서 동작하는, 연속적이고 자동적인 프로세스임을 기록하고 있습니다.
청각계가 *인자 분해할 수 없는* 것, 그리고 음원 동정과 자연스러움 판정을 위해 많이 사용하는 것 — 그것은 기반이 되는 음원의 고유한 타이밍 구조입니다. 방은 거기에 있는 것을 흐릿하게 만들 수 있습니다. 거기에 없는 것을 더할 수는 없고, 거기에 있는 것을 뺄 수도 없습니다.
단적으로 말하면: 진짜 바이올린과 샘플링된 바이올린을 같은 방·같은 스피커로 울렸을 때, 청자는 긴 청취에서 전형적으로 구별합니다. 음향 체인은 동일합니다. 차이는, 스피커에 도달하기 전에 신호에 부호화되어 있기에 체인을 살아남는, 음원 수준의 시간 구조에 있습니다.
DAC의 재구성 필터가 어차피 빠른 타이밍 모듈레이션을 매끄럽게 만들어 버리지 않나요?
분명히 말해 둘 가치가 있는 일반 원리: NOMN의 모듈레이션은 내용(content)이지 메타데이터가 아닙니다. 오디오를 처리하는 것은 무엇이든 모듈레이션도 함께 처리합니다. 오디오를 처리하지 않는 것은 무엇이든 모듈레이션에 손댈 수 없습니다. 공격할 별도의 채널은 존재하지 않습니다. 같은 논리가 스피커, 방, 청자의 HRTF, 외이도에도 적용됩니다. 모두, 오디오 내용에 대해 적용되는 선형 시불변(linear time-invariant) 연산이며, 어느 것도 모듈레이션을 선택적으로 지우지 않습니다.
낮은 뎁스의 코러스나 필터링된 잡음으로 배리스피드(varispeed)를 구동하면 같은 것을 실현할 수 있지 않나요?
차이는 청각계가 서로 다른 종류의 변동에 대해 무엇을 하는가에 있습니다. LFO 구동의 모듈레이션은 주기적이며, 청각계는 의식적 자각 아래에서 주기성을 검출합니다. 미묘한 주기적 모듈레이션은, 왜인지 설명할 수 없더라도 "흔들림"이나 "이펙트 느낌"으로 읽힙니다. 필터링된 잡음에 의한 모듈레이션은 비주기적이지만 내용에 맹목적이며, 이것도 청각계는 자연원에게 이물질로 읽습니다 — 왜냐하면 자연원은 통계적으로 백색인 타이밍 변동을 만들어내지 않기 때문입니다. 자연스러운 타이밍 변동은 특정한 구조를 가집니다: 인간의 연주에서 직접 측정된 장거리 상관과 내용 상관. Hennig(2014, PNAS 111: 12974-12979)는 프로 드럼 연주에서의 타이밍 편차가 백색 잡음 통계가 아니라 장거리(1/f형) 상관을 보임을 기록했습니다. 이것은 인간의 운동 퍼포먼스에서의 시간 구조에 관한 보다 광범위한 연구와 정합합니다(Gilden, Thornton & Mallon 1995, Science 267: 1837-1839). 당신의 모듈레이션이 이 구조에 가까워질수록, 청각계가 그것을 "이물질"로 표시하는 정도는 낮아집니다.
NOMN의 모듈레이션은 그 구조에 정합합니다. 낮은 뎁스의 코러스나 1/f 잡음은 그렇지 않습니다.
직접 답할 가치가 있는, 보다 미묘한 형태의 질문이 있습니다. 충분히 빠른 시간축 모듈레이션은, 그것을 구동하는 제어 신호가 무엇이든, 신호의 시간적 미세 구조를 바꿉니다. 그것은 이 연산의 물리학 그 자체이며, LFO에도, 1/f 잡음에도, NOMN에도 해당됩니다. 그러나 TFS를 바꾸는 것이 자동적으로 유익한 것은 아닙니다. 청각계는 자연원의 통계에 정합하는 TFS 변동과, 그렇지 않은 TFS 변동을 구별합니다. 주기적인 모듈레이션은 이펙트로 읽힙니다. 백색 잡음에 의한 모듈레이션은 오작동으로 읽힙니다. 자연스러운 것으로 읽히는 것은, 자연스러운 시간적 변동의 통계 구조를 담는 모듈레이션뿐입니다. 배리스피드 엔진은 메커니즘입니다. 제어 신호는, 결과로 얻어지는 TFS 수정이 청각계가 환영하는 것인지, 아니면 표시하는 것인지를 결정합니다. 메커니즘은 범용적입니다. 구조는 그렇지 않습니다.
이건 전에 시도된 적이 있지 않나요? NOMN은 그냥 MQA나 C Wave 같은 것 아닌가요?
C Wave는 PCM이 "비연속적"이며 뇌가 이 비연속성을 검출한다고 논합니다. 그들의 해결책은 "갭을 메우는" 일종의 리버브입니다. 우리는 그 진단을 공유하지 않습니다. PCM 위에서 동작하는 리버브 알고리즘은 여전히 PCM이며, Shannon-Nyquist는 적절히 대역 제한된 PCM이 Nyquist 주파수까지 연속 파형과 수학적으로 등가임을 보증합니다. 디지털 신호에 메워야 할 갭은 존재하지 않습니다. 우리는 PCM 내부에서 무언가를 수복하고 있다고 주장하는 것이 아닙니다. 우리는, 자연스러운 음향원에는 크리스털에 고정된 재생에 없는 시간적 미세 구조가 있다고 주장합니다 — 이것은 샘플링 이론에 관한 논쟁 중인 주장이 아니라, 자연스러운 음원의 물리적 성질에 입각한, 다른 주장입니다.
이러한 시도들에서 얻는 가장 큰 교훈: 샘플링 이론과 싸우지 마라, 측정할 수 없는 것을 주장하지 마라, 독립된 측정을 적으로 취급하지 마라.
이것은 휴머나이저 플러그인과 어떻게 다른가요?
두 가지 차이. 첫째, 휴머나이저는 확률적인 변동을 더합니다. NOMN은 자연원의 통계에 정합하는 구조화된 변동을 더합니다. 무작위는 자연과 같지 않습니다. 인간의 운동 타이밍에 대해 기록된 장거리 상관 구조(Gilden et al. 1995; Hennig 2014)는, 대부분의 휴머나이저가 만들어내는 백색 잡음 분포와는 범주적으로 다르며, 청각계는 그 구별에 반응합니다.
둘째, 휴머나이저는 오디오 렌더링 전의 MIDI 이벤트 타이밍에 대해 동작합니다. NOMN은 신호 수준의 오디오에 대해 동작합니다. 퀀타이즈된 MIDI 스네어에 대한 휴머나이저는 히트를 움직입니다. NOMN은 오디오 자체의 재생을 변조합니다. 다른 연산, 다른 신호 체인상의 위치, 다른 효과. 휴머나이저는 완성된 오디오 파일을 휴머나이즈할 수 없습니다. NOMN은 할 수 있습니다.
시간적 모듈레이션은 가청인가요?
"청자가 NOMN을 인식 가능한 이펙트로서 동정할 수 있는가"라는 의미로 말하고 있다면, 일반적으로 답은 노이며, 그것이 설계 의도입니다. 가청이 아닌 플랜저는 목적을 다하지 못하는 것이 됩니다. 처리로서 가청인 NOMN은 목적을 다하지 못하는 것이 됩니다. 양쪽은 정반대의 결과를 목표로 하고 있습니다.
"청자가 통제된 시행에서 NOMN 처리된 오디오를 미처리 오디오로부터 A/B 변별할 수 있는가"라는 의미라면, 그것은 경험적인 질문입니다. 우리는 적절하고 독립적이며 사전 등록된 지각 연구로 조사할 작정이며, 결과를 공표할 것입니다. 그러나 그것은, 기술이 중요한지 어떤지, 추구하거나 지지할 가치가 있는지 어떤지를 결정하는 질문은 아닙니다.
관련된 질문은, 재생 체인의 다른 모든 차원에 대해 오디오 산업이 수십 년 동안 답해 온 것입니다: 기술은 감각계가 실제로 사용하는 시간 분해능에서 동작하고 있는가? 샘플링 레이트, 비트 심도, 레이턴시, 지터, 주파수 응답에 대해, 산업은 일관되게 예라고 답해 왔습니다. 프로덕션 체인은 감각의 바닥에 맞춰야 하며, 의식적인 A/B 검출 역치에 맞춰서는 안 됩니다. 우리는 같은 엔지니어링 규율을 시간적 미세 구조에 적용하고 있습니다. 청자가 트랙 단위의 강제 선택 테스트에서 차이를 언어화할 수 있는가 어떤가는, 수십억 시간의 인간 청취에 봉사하는 기술이 감각 분해능에 맞춰야 하는가 어떤가와는 별개의 질문입니다.
왜 NOMN이라는 이름인가요? 마지막 N은 묵음 N인가요?
여기서 인용하고 있는 청각 과학에 대해 더 자세히 읽고 싶다면 어디서 읽을 수 있나요?
INTERAURAL TIME DIFFERENCE THRESHOLDS
— Klumpp, R.G. & Eady, H.R. (1956). "Some Measurements of Interaural Time Difference Thresholds." Journal of the Acoustical Society of America 28(5): 859-860. The original measurement: 9μs threshold for band-limited noise, 11μs for 1000-Hz tone, 28μs for clicks (75% correct discrimination, ten listeners).
— Mills, A.W. (1958). "On the Minimum Audible Angle." Journal of the Acoustical Society of America 30(4): 237-246. Foundational measurement of angular acuity in sound localization (~1° near midline).
— Brughera, A., Dunai, L. & Hartmann, W.M. (2013). "Human interaural time difference thresholds for sine tones: The high-frequency limit." Journal of the Acoustical Society of America 133(5): 2839-2855. Modern confirmation of ~10μs thresholds for pure tones at mid-frequencies, with high-frequency cutoff around 1.4 kHz.
NEURAL CODING OF TEMPORAL STRUCTURE
— Joris, P.X., Schreiner, C.E. & Rees, A. (2004). "Neural Processing of Amplitude-Modulated Sounds." Physiological Reviews 84(2): 541-577. The standard review on how the auditory system encodes temporal modulation for source localization, identification, and parsing.
— Moore, B.C.J. (2008). "The role of temporal fine structure processing in pitch perception, masking, and speech perception for normal-hearing and hearing-impaired people." Journal of the Association for Research in Otolaryngology 9(4): 399-406. The canonical review of temporal fine structure (TFS) and its perceptual role.
— Smith, Z.M., Delgutte, B. & Oxenham, A.J. (2002). "Chimaeric sounds reveal dichotomies in auditory perception." Nature 416: 87-90. The foundational experimental demonstration that listeners rely on TFS for pitch and localization while ENV dominates speech recognition in quiet.
— Lorenzi, C., Gilbert, G., Carn, H., Garnier, S. & Moore, B.C.J. (2006). "Speech perception problems of the hearing impaired reflect inability to use temporal fine structure." Proceedings of the National Academy of Sciences 103: 18866-18869. Direct evidence for TFS's role in speech-in-noise perception.
SOURCE/ENVIRONMENT SEPARATION
— Wallach, H., Newman, E.B. & Rosenzweig, M.R. (1949). "The Precedence Effect in Sound Localization." American Journal of Psychology 62(3): 315-336. The foundational paper showing that listeners localize sounds based on first-arriving wavefront, suppressing reverberant reflections.
— Bregman, A.S. (1990). Auditory Scene Analysis: The Perceptual Organization of Sound. MIT Press. The standard reference text on how the auditory system organizes complex sound mixtures into source representations.
— Litovsky, R.Y., Colburn, H.S., Yost, W.A. & Guzman, S.J. (1999). "The Precedence Effect." Journal of the Acoustical Society of America 106(4): 1633-1654. Comprehensive review of the precedence effect and echo suppression literature.
LATENCY PERCEPTION AND MUSICAL PERFORMANCE
— Jack, R.H., Mehrabi, A., Stockman, T. & McPherson, A. (2018). "Action-sound Latency and the Perceived Quality of Digital Musical Instruments." Music Perception 36(1): 109-128. Professional percussionists rated 10ms±3ms jitter and 20ms latency conditions as significantly lower quality than zero latency.
— McPherson, A., Jack, R. & Moro, G. (2016). "Action-Sound Latency: Are Our Tools Fast Enough?" Proc. NIME 2016. Survey demonstrating most digital musical instrument platforms fail to meet sub-millisecond latency targets; motivates the Bela platform.
— Schmid, A., et al. (2024). "Measuring the Just Noticeable Difference for Audio Latency." Proc. Mensch und Computer 2024 (ACM). Mean JND of 27ms at 64ms base latency, with musically sophisticated listeners detecting smaller margins.
— Dahl, S. (2011). "Striking Movements: A Survey of Motion Analysis of Percussionists." Music Perception 28(5): 491-503. Documentation of percussionist timing variability.
NATURAL TIMING STATISTICS
— Hennig, H. (2014). "Synchronization in human musical rhythms and mutually interacting complex systems." Proceedings of the National Academy of Sciences 111(36): 12974-12979. Direct measurement of 1/f long-range correlations in professional drum performance timing.
— Gilden, D.L., Thornton, T. & Mallon, M.W. (1995). "1/f noise in human cognition." Science 267: 1837-1839. Broader finding of 1/f temporal structure across human cognitive and motor performance.
우리가 이 연구들을 인용하는 것은, NOMN의 지각에 관한 주장이 청각 과학 커뮤니티의 나머지 연구와 같은 기반 위에 서기를 바라기 때문입니다. 독립된 측정과 검증은 이 분야가 전진하는 방식이며, 우리도 거기서 면제되려고는 생각하지 않습니다.
10배 이상의 차이로, 인간의 가장 빠른 감각은 청각이다. 인간은 약 10마이크로초의 타이밍 차이를 감지할 수 있다. 지금 당신이 이 글을 읽고 있는 모니터가 60Hz로 리프레시된다면, 그것은 당신의 귀가 분해할 수 있는 속도보다 천 배 이상 느리다.
지구상의 모든 디지털 오디오 소스는 한 가지 속성을 공유한다: 자연계의 그 무엇보다도 훨씬 안정적인 타이밍이다. DAW, 디지털 신디사이저, 드럼 머신, 샘플러, 스트리밍 오디오 — 그 모든 것이 설계상 시간적으로 경직되어 있다. 오디오파일들은 10MHz 외부 클록으로 점점 더 빡빡한 안정성을 좇는다. "충실도(fidelity)"의 실질적 정의는 최소한의 주파수 불안정성, 최소한의 타이밍 변동이 되어버렸다.
이와 병행하여, 업계는 50년을 들여 스펙트럼 충실도를 최적화하며, 음악 창작과 청취를 위한 디지털 인프라를 구축했다 — 그것이 봉사해야 할 시스템, 즉 청자의 시간적 민감도보다 몇 자릿수나 아래에서 작동하는 인프라를.
자연 속의 소리는 결코 시간적으로 경직되어 있지 않다. 모든 어쿠스틱 악기, 모든 목소리, 환경을 통과하는 모든 한 줄기 바람은 그 생성의 물리에서 비롯되는 연속적인 마이크로초 단위의 타이밍 변동을 나타낸다. 이 변동들은 결함이 아니다 — 그것은 청각 시스템이 살아 있음이라고 인식하는 것의 일부다. 모든 오디오 기술의 종석이 되는 결정적 하위 기술은 바로 기저의 주기성, 즉 클록이다. 그것이 변조되는 전기적 주파수든, 회전하는 왁스 실린더든, 레코드 선반(lathe)이든, 디지털-아날로그 컨버터든, 새로이 만들어진 양자의 논리 구조를 시스템 전반에 걸쳐 정량화하고 유지하는 방법은 언제나 존재한다. 그 클록이 열화되면 환상은 무너진다: 너무 느리게 넘기는 플립북처럼, 그 지각적 트릭은 실패한다.
레코드 플레이어와 아날로그 테이프 머신은 더 좋게 들리는 것이 아니다 — 더 좋게 느껴진다. 그것들은 우연히도 무작위적 시간 변동을 신호에 도입하는 마이크로타이밍 인핸서다. 턴테이블이나 테이프 트랜스포트의 기계적 불안정성이 주파수 불안정성과 결합된 시간 영역의 변동을 도입한다. 이는 사람들이 바이닐 프레싱, 진공관, 아날로그 신호 체인을 통해 엄청난 돈을 들여 좇는 품질이다 — 그러면서도 자신이 무엇을 듣고 있는지 이름 붙이지 못하는 경우가 많다. 왜냐하면 그들이 듣고 있는 것은 스펙트럼적인 것이 아니라 시간적인 것이기 때문이다.
NOMN은 디지털 오디오에 시간적 생명을 도입한다. 그것은 인간 지각 시스템의 해상도로 작동하면서, 어떤 오디오 스트림에든 인간적으로 구조화된, 반복되지 않는 타이밍 변동을 더하는 시간 미세구조 강화 시스템이다.
20세기 초, 예술가 마르셀 뒤샹은 겉보기에 동일해 보이는 사물들 사이의 분리적 차이를 가리켜 "앵프라맹스(inframince)" — 극미함 — 라는 말을 만들었다. 같은 거푸집에서 나온 두 개의 물체, 동일하지만 동일하지 않은.
NOMN은 살아 있는 시간과 기계적 시간 사이의 그 극미한 분리적 차이를 취해 그것을 조작 가능한 것으로 만든다.
--
## 작동 원리
NOMN은 80개의 구어(口語)에서 도출된 유기적 시간 거동의 생성 모델 위에 구축되어 있다. 런타임에 시스템은 연속적인 타이밍 변동의 스트림 — 초당 1,000회 이상의 업데이트 — 을 생성하여 입력 오디오에 적용한다. 원래의 콘텐츠는 전부 보존된다. 신호에는 아무것도 더해지거나 제거되지 않는다. 오직 시간적 미세구조만이 풍부해지며, 그 규모는 스윙이나 그루브 같은 것의 임계값 아래이면서도 지각적 효과의 임계값 안쪽이다.
이 변동들은 무작위가 아니며 지터로 복제될 수 없다. 그것들은 주기적이지 않다. 루프하지 않는다. 그것들은 맥락에 따라 구조화되어 있고 반복되지 않는다 — 통과하는 오디오의 매 순간마다 실시간으로 생성된다.
NOMN은 디지털 오디오가 시간 미세구조를 결여하고 있다거나, 포맷이 잃어버린 무언가를 복원한다고 주장하지 않는다. 디지털 녹음은 신호의 대역 내(in-band) 콘텐츠에 대한 미세구조를 담고 있다. NOMN의 전제는 다르다: 클록에 고정된 재생은 거기에 있는 무엇이든 완벽한 시간적 정상성(stationarity)으로 제시한다 — 어떤 자연 음향 소스도 갖지 못하는 정상성이다. NOMN은 구조화된 시간 변동을 그 재생에 도입한다.
활용 사례
마스터링 & 포스트 프로덕션
EQ, 컴프레션, 공간 처리, 라우드니스와 직교하는 오디오 강화의 새로운 차원. 어떤 마스터, 어떤 장르, 어떤 시대의 녹음에든 적용 가능.
스트리밍 & 재생
스트리밍 인프라나 재생 디바이스의 실시간 처리 레이어로 배포 가능. 음악, 팟캐스트, 영화 오디오 등 통과하는 모든 오디오를 콘텐츠 수정 없이 강화한다.
하드웨어 통합
시스템의 연산 풋프린트는 오디오 DSP 칩에 임베디드로 배포할 만큼 작다 — 이어버드, 차량용 헤드 유닛, 휴대용 플레이어에 들어갈 만큼 작다. 소비자 오디오 하드웨어, 차량 오디오 시스템, 전문 장비로의 통합을 위해 라이선싱 가능.
--
## NOMN이 아닌 것
NOMN은 이퀄라이저도, 컴프레서도, 공간 프로세서도, 이펙트도 아니다. 주파수 콘텐츠, 다이내믹 레인지, 스테레오 이미지, 라우드니스를 변경하지 않는다. 하모닉스, 노이즈, 새추레이션을 더하지 않는다. 수정은 시간 영역에서 이루어진다.
--
## 기술 노트
NOMN의 타이밍 변동은 마이크로초에서 밀리초 규모에서 작동한다 — 아날로그 재생 시스템의 타이밍 불안정성과 동일한 자릿수이면서 더 미세하지만, 기계적이지 않고 구조화되어 있으며, 주기적이지 않고 비반복적이다.
시스템은 의도된 타이밍과 렌더링된 타이밍 사이의 관계를 모니터링하는 연속적 품질 검증을 포함하여, 처리에서 출력에 이르는 전체 신호 체인을 통해 강화가 살아남도록 돕는다. 널 테스트(null test) 분석은 하모닉스, 노이즈, EQ, 공간 처리가 추가되지 않았음을 보여준다 — 입력과 출력 사이의 차이는 시간 영역에 있다.
--
## 포맷 & 액세스
API: RESTful HTTP 엔드포인트. 오디오를 보내고, 처리된 오디오를 받는다. 선택적 제어 파라미터. 자동 모드 사용 가능.
라이선싱: 하드웨어, 소프트웨어, 스트리밍 인프라로의 통합에 사용 가능. 디바이스별, 트랙별, 또는 엔터프라이즈 라이선싱 모델.
특허 상태: 특허 출원 중(일본, 2026). POLYTOPE KK.
--
## 디지털 오디오란 무엇이며 왜 그렇게 헷갈리는가?
디지털 오디오에는, 이를테면 화면 위에서 개별 픽셀들이 이미지를 이룬다는 발상보다 직관적이지 않은, 어딘가 본질적으로 헷갈리는 무언가가 있다. 우리 모두가 헷갈려 왔고, 온라인의 토론 포럼과 오디오파일 커뮤니티에서 당신은 매우 갈라진 이해들을 발견하게 될 것이다. 우리는 모든 오디오를 일종의 지각적 응접실 마술 — 이상하리만치 잘 작동하며, 사실성보다도 더 강력한 무언가, 즉 환상과 함께 작동하는 마술 — 로 생각한다. 그러나 그 힘의 밑바닥에는 엄청나게 많은 숫자들이 있고, 그것들이 어떻게든 압축파를 당신의 몸을 향해 밀어내되, 우리의 작은 인간 뇌가 그것을 거의 진짜라고 믿을 만큼 충분히 그럴듯하게 밀어내며, 우리는 그것을 통해 연결을 발견한다.
디지털 오디오는 인코딩 쪽 — 녹음, 즉 오디오 파일을 만드는 일 — 에서, 연속적으로 변하는 신호에 대해 매우 빠른 측정을 수행하고 그것들을 숫자의 열로 저장함으로써 작동한다.
### 디지털 오디오의 가장 작은 단위들과 그 성질
샘플(sample)은 그 측정들 중 하나로, 한 순간에 파형의 순간 진폭을 나타내는 정수(소수 없음) 또는 부동소수점(소수 있음)이다. 아날로그 중심 커뮤니티에서 묘사되는 것과는 반대로, 이것들은 "0과 1"이 아니라 시간에 따른 압축파의 빠른 작도(graphing)다.
샘플레이트는 그 측정이 얼마나 자주 일어나는지를 결정한다. 초당 샘플 수로 표현된다. 96kHz에서 시스템은 매초 96,000개의 진폭 값을 포착하며, 각각은 그 순간 파형이 어디에 있는지의 스냅숏이다. 44.1kHz(CD)에서는 매초 44,100개다. 흔한 직관은 파일이 샘플 사이에 "아무것도 담고 있지 않다"는 것이다 — 그러나 이것은 이를 두고 생각할 수 있는 가장 오해의 소지가 큰 방식이다. 적절히 대역 제한된 샘플링된 신호는 나이퀴스트 주파수까지의 원래 파형에 대한 완전한 표현이다. 샘플 사이에 빠진 정보는 없다. DAC의 재구성 필터는 빈틈을 추측하거나 메우는 것이 아니다; 그것은 샘플들이 유일하게 기술하는 하나의 연속 파형을 재구성한다. 192kHz나 DSD 같은 더 높은 샘플레이트는 귀가 놓치고 있던 정보를 더해주는 것이 아니다; 그것들은 재구성 필터의 작업을 가청 대역에서 더 멀리 옮겨놓을 뿐이다. DSD(Direct Stream Digital)는 기본 단계의 2.8224 MHz(DSD64)에서 DSD512의 22.5792 MHz까지 이르는 레이트 군(群)이다. DSD는 1비트 포맷으로, 각 샘플은 신호가 위로 가는지 아래로 가는지만을 저장하며, 매우 높은 클록 레이트가 노이즈 셰이핑을 통해 낮은 비트 뎁스를 보상한다.
샘플 그 자체는 주파수, 음색, 피치에 관해 아무것도 담고 있지 않다. 이것이 그토록 헷갈리는 지점이다. 이 미세한 순간들 안에서는 진폭 값을 넘어서는 어떤 분석도 일어나지 않는다. 그러한 성질들은 수많은 샘플에 걸친 패턴으로부터 떠오른다. 스피커 콘은 매 순간 어디에 있어야 하는지만 알면 되고, "어디에 있어야 하는지" 값들의 열만 있으면 어떤 파형이든 그려낼 수 있다. 스피커는 이 움직임으로 공기를 변위시키고, 이 변위가 당신의 몸이 감지할 수 있는 압축파를 낳는다.
나이퀴스트(Nyquist) 한계는 오디오 품질을 둘러싼 대화에 종종 끌려 들어오는 또 다른 헷갈리는 용어다. 그것은 유한한 레이트로 샘플링하는 일의 실질적인 물리적 귀결을 기술하는 방식이다: 주파수 F로 흔들리는 파동을 포착하려면 초당 2F보다 많이 샘플링해야 한다. 더 느리게 샘플링하면 파동의 한 주기당 샘플 점이 충분치 않아 모호함 없이 재구성할 수 없기 때문이다. 그러니 파동이 휙 지나간다고 상상하면, 적어도 그 고점과 저점을 포착함으로써 누군가가 — 이 경우엔 기계가 — 그 크기를 이해할 수 있을 만큼 충분한 점들을 빠르게 짚어야 한다.
여기서 잠시 멈추자. 우리는 말 그대로 공기 중 파동의 크기에 관해 이야기하고 있다. 인간이 들을 수 있는 가장 높은 주파수는 대략 손톱 너비 정도의 파장에 해당한다. 인간의 청각은 20kHz 부근에서 상한에 이르며, 그래서 44.1kHz와 48kHz가 표준이 되었다. 둘 다 가청 대역 위로 넉넉한 여유를 남긴다. 96kHz나 192kHz 같은 더 높은 레이트는 당신이 들을 수 있는 범위를 넓혀주지 않는다. 그것들은 DAC의 아날로그 재구성 필터가 가청 범위 안에서 깨끗하게 작동할 여지를 더 준다.
44.1kHz 샘플링 → 22.05kHz 최대 주파수 → 15.6 mm 파장
48kHz 샘플링 → 24kHz 최대 → 14.3 mm
96kHz 샘플링 → 48kHz 최대 → 7.1 mm
192kHz 샘플링 → 96kHz 최대 → 3.6 mm
384kHz 샘플링 → 192kHz 최대 → 1.8 mm
768kHz 샘플링 → 384kHz 최대 → 0.89 mm
DSD는 다르게 작동하며 이 표에서 직접 비교되지 않는다. DSD512에서의 원시 클록 레이트는 22.5792 MHz지만, 그것은 PCM 나이퀴스트 한계가 아니라 1비트 변조기 클록이며, 사용 가능한 오디오 대역폭은 샘플레이트의 절반으로 정해지는 것이 아니라 노이즈 셰이핑 필터에 의해 형성된다.
비트 뎁스(bit depth)는 각 측정이 얼마나 정밀하게 저장되는지다. 24비트는 샘플당 약 1,670만 개의 가능한 진폭 값을 주며, 이것이 다이내믹 레인지(큰 소리와 작은 소리 사이의 잠재적 차이)와 노이즈 플로어를 정한다. 명심하라, "비트 뎁스" 역시 아무것도 알지 못하며 그 효과는 마찬가지로 빠르고 집합적이다. 비트 뎁스가 더 크다고 해서 당신의 컴퓨터가 이제 활이 현에 닿는 소리를 렌더링할 수 있다는 걸 어떻게든 안다는 뜻이 아니다.
### 버킷, 청크, 프레임
버퍼(buffer)는 시스템이 한 그룹으로 처리하는, 연속된 샘플들의 작은 청크다. 소프트웨어, 드라이버, 하드웨어 사이에서 샘플을 하나씩 넘기는 것은 터무니없이 비효율적이기 때문이다. 범용 컴퓨터는 여전히 막대한 지터 없이 초고속으로 오디오를 옮기는 데 애를 먹는다. 전형적인 버퍼는 64, 128, 또는 512 샘플의 버킷을 만든다. 96kHz에서 64 샘플 버퍼는 약 0.67밀리초의 오디오에 해당한다. 더 작은 버퍼는 더 낮은 레이턴시 — 신호가 시스템에 들어가서 나오기까지의 시간 — 를 의미하지만, 더 잦은 처리를 요구하고 CPU에 더 많은 부담을 주며 운영체제나 하드웨어 및 그 펌웨어에서 비롯되는 온갖 기이함과 간섭에 더 노출된다. 더 큰 버퍼는 프로세서에 더 수월하지만(아, 느긋하다) 눈에 띄는 지연을 도입하는데, 이는 라이브 퍼포먼스와 모니터링에서 중요하다. 인간은 그토록 놀라운 시간 지킴이이기 때문이다.
오디오가 여러 채널을 — 스테레오, 서라운드, 혹은 그 이상 — 가질 때, 매 시간 순간은 채널당 하나의 샘플을 갖고, 모든 채널에 걸친 동시 샘플들의 그룹을 프레임(frame)이라 부른다. 96kHz의 스테레오 녹음은 매초 96,000 프레임을 생성하며, 각 프레임은 좌우 두 개의 샘플을 담는다. 버퍼 크기는 보통 샘플이 아니라 프레임 단위로 센다. 그것이 채널 수와 무관하게 오디오의 지속 시간에 대응하기 때문이다.
### 다시 공기로
그래서 어느 시점엔, 인간이 이 모든 것을 지각하려면 이 빠르게 지나가는 버킷 전달의 상황 전체를 공기로 바꿔야 한다. 오디오 엔진이 각 버퍼를 샘플과 프레임으로 채우고, 처리하고, DAC에 넘기면, DAC는 그 숫자들을 다시 전압으로 변환하고, 그 전압이 스피커를 구동하여 콘을 스피커가 가능한 한 정확하게 지시된 위치로 움직인다.
이 전체 사이클이 초당 수천 번 반복되며, 청자가 이산적 블록들의 연속이 아니라 연속적이고 매끄러운 파형으로 지각할 만큼 충분히 빠르다.
--
## 미묘함에 관하여
이 효과는 설계상 미묘하다. 그것은 EQ처럼 들리는 이산적 변화가 아니다 — 그것은 오디오가 시간적 경험으로서 어떻게 느껴지는가의 질적 전환이다. 오디오는 언제나 귀의 시간 분해능을 활용함으로써 작동해 왔다: 지각적 변별을 넘어설 만큼 빠른 클록이 연속성의 환상을 만들어낸다. NOMN은 바로 이 동일한 임계값에서 작동한다. 클록을 열화시킴으로써가 아니라, 어쿠스틱하고 기계적인 시스템들이 언제나 가졌으나 디지털 시스템들은 갖지 못한 종류의 구조화된 불안정성을 클록에 부여함으로써.
이것이 특정 청자, 특정 녹음, 특정 재생 체인에 중요한지는 수사적 물음이 아니라 경험적 물음이다. 우리는 당신이 무엇을 느낄지에 관해 주장하지 않는다. 그러나 우리는 그것을 느끼며, 당신도 그러기를 바란다.