29.97, 44100, 16:9 — 우리가 당연하게 쓰는 숫자들입니다. 그런데 왜 하필 30이 아닌 29.97이고, 둥근 40000이 아닌 44100일까요? 그 뒤에는 하위 호환을 위한 타협, 비디오테이프의 사정, 그리고 기하평균이 숨어 있습니다.
미국·일본의 옛 방송(NTSC) 영상은 흔히 "30프레임"이라 불리지만, 실제 값은 29.97 입니다. 정확히는 \(30000/1001 = 29.97002997\ldots\) 라는 기묘한 분수죠. 왜 깔끔한 30을 버렸을까요?
원래 1941년의 흑백 NTSC는 정확히 30fps였습니다(미국 전력망 60Hz에 맞춰 초당 60필드). 문제는 1953년 컬러 방송을 추가할 때였죠. 기존 흑백 TV에서도 그대로 나와야 했기에, 영상 신호에 약 3.58 MHz의 색 부반송파(color subcarrier)를 끼워 넣었습니다.
여기서 핵심 개념 하나. 주파수는 정보의 "주소"입니다. 라디오 다이얼을 떠올려 보세요. 수많은 방송국이 동시에 전파를 쏘는데도 섞이지 않는 건, 각자 다른 주파수라는 자기 차선을 쓰기 때문이죠. 어떤 정보를 특정 주파수의 물결에 살짝 얹어 실어 보내는 것을 변조(modulation)라고 합니다.
TV도 똑같습니다. 채널 하나는 사실 약 6 MHz 폭의 주파수 띠인데, 방송국은 그 안에 밝기(흑백 영상)·색·소리 세 정보를 각각 다른 주파수 자리에 끼워 함께 보냅니다. 흑백 TV는 밝기 자리만 읽고, 컬러 TV는 색 자리까지 읽는 식이죠.
문제는 색(3.58 MHz)과 소리(4.5 MHz)의 차선이 가까워, 두 물결의 무늬가 어긋나며 맥놀이(beating)를 일으킨 것이었습니다 — 살짝 음정이 안 맞는 두 음이 내는 "우우웅" 하는 떨림처럼요. 화면엔 줄무늬가, 소리엔 잡음이 끼었습니다.
해결의 열쇠는 밝기 신호의 숨은 빈틈이었습니다. 화면을 한 줄씩 훑는 주사(走査) 때문에, 밝기 에너지는 주파수 위에 고르게 퍼지지 않고 주사율(약 15.7 kHz)의 배수마다 빗살처럼 뭉쳐 있고, 빗살 사이는 텅 비어 있습니다. 여기에 색 신호를 빗살의 정확히 한가운데 (주사율 절반의 홀수 배)에 끼워 넣으면 둘이 겹치지 않아 간섭이 사라지죠. 이 위치를 맞추려고 모든 주파수를 \(1000/1001\)배(약 0.1%)만큼 살짝 낮춘 결과가 바로 29.97이었습니다.
0.1%는 기존 흑백 TV가 너끈히 견딜 만큼 작은 변화였습니다. 그렇게 임시방편으로 태어난
이 숫자는, 70년이 지난 지금도 29.97·23.976·59.94
같은 형태로 영상 파일 속에 살아 있습니다.
극장 영화는 100년 가까이 초당 24프레임으로 찍습니다. 더 부드러운 30이나 60도 아닌 24가 표준이 된 건, 뜻밖에도 소리 때문이었습니다.
무성영화 시절엔 카메라를 손으로 돌렸기에 속도가 16~20프레임으로 들쭉날쭉했습니다. 그런데 1920년대 후반 유성영화가 등장하며 문제가 생겼죠. 소리를 필름 가장자리에 함께 기록 (사운드 온 필름)하려면, 필름이 일정하고 충분히 빠른 속도로 지나가야 음질이 확보됐거든요.
여기서 24는 절묘한 타협점이었습니다. 음질을 낼 만큼 빠르면서도, 비싼 필름을 덜 쓰도록 가능한 한 느린 값(당시 필름은 길이가 곧 돈이었습니다). 게다가 24는 2·3·4·6·8·12로 잘 나뉘어 편집·촬영에도 편했죠.
음악 CD의 표본화 주파수는 44100 Hz 입니다. 둥근 40000이나 48000도 아닌 어정쩡한 값이죠. 절반은 이론, 절반은 우연입니다. (소리를 이렇게 숫자로 떠서 담는 표본화 자체가 궁금하다면 파형을 만지다 편을 보세요.)
이론(절반): 사람이 듣는 한계는 약 20 kHz. 나이퀴스트 정리에 따르면 어떤 소리를 온전히 담으려면 그 두 배가 넘는 속도로 표본을 떠야 하므로, 최소 40 kHz가 필요합니다. 실제로는 필터 여유까지 더해 \(44\) kHz 언저리가 적당했죠.
우연(나머지 절반): 그런데 왜 정확히 44100일까요? 전용 디지털 녹음기가 없던 시절, 소니 등은 디지털 오디오를 가짜 영상 신호로 바꿔 비디오테이프(U-matic)에 기록하는 PCM 어댑터를 썼습니다. 영상 한 줄(line)에 한 채널당 표본 3개를 담았는데, 이 값이 NTSC와 PAL 양쪽 모두에 맞아떨어지는 최대 주파수가 바로 44100이었습니다.
$$ \underbrace{245 \times 60 \times 3}_{\text{NTSC}} \;=\; 44100 \;=\; \underbrace{294 \times 50 \times 3}_{\text{PAL}} $$| 방식 | 한 필드당 사용 줄 | 초당 필드 | 줄당 표본 | 결과 |
|---|---|---|---|---|
| NTSC | 245 | 60 | 3 | 44100 |
| PAL | 294 | 50 | 3 | 44100 |
두 방송 규격에서 똑같이 44100이 나오니, 어디서 녹음하든 호환됐습니다. 그래서 이 값이 CD의 표준이 되었죠. (영상·방송 쪽에서 따로 발전한 48 kHz와 갈라지게 된 것도 이 때문입니다.)
CD는 44100인데, 영상·방송·영화 같은 전문가용 작업에서는 한 단계 위인 48000 Hz를 표준으로 씁니다. 둘 다 20 kHz를 담기엔 충분한데, 왜 굳이 다른 값을 쓸까요?
가장 큰 이유는 영상 프레임과의 궁합입니다. 영상 작업에선 "1프레임당 음성 표본 몇 개"가 딱 떨어져야 편집과 동기화가 편한데, 48000은 흔한 프레임레이트로 깔끔하게 나뉩니다.
$$ \frac{48000}{24}=2000,\quad \frac{48000}{25}=1920,\quad \frac{48000}{30}=1600 \;\;(\text{모두 정수}) $$반면 44100은 영화 표준인 24fps에서 \(44100/24 = 1837.5\) — 표본 수가 반 토막 나 떨어지지 않습니다. 그래서 음악은 44.1로, 영상은 48로 길이 갈렸죠.
| 프레임레이트 | 48000 Hz | 44100 Hz |
|---|---|---|
| 24 fps (영화) | 2000 | 1837.5 ✗ |
| 25 fps (PAL) | 1920 | 1764 |
| 30 fps | 1600 | 1470 |
여기에 더해, 표본을 더 촘촘히 뜨면 가청 한계(20 kHz) 위로 여유가 더 생겨 잡음 제거 필터를 더 완만하게 설계할 수 있다는 음질상의 이점도 있습니다. (초창기 DAT가 CD를 그대로 디지털 복제하지 못하도록 48 kHz를 쓴 사정도 한몫했고요.)
옛 TV는 4:3, 요즘 화면은 16:9, 영화는 2.35:1… 제각각인 화면비 속에서 HD TV의 표준은 왜 하필 16:9 (=1.778)가 됐을까요? 여기엔 아름다운 기하학이 숨어 있습니다.
1984년 SMPTE의 Kerns Powers는 당시 쓰이던 화면비들(4:3, 1.66, 1.85, 2.35)을 넓이가 똑같은 직사각형으로 잘라 중심을 맞춰 포개 보았습니다. 그랬더니 신기하게도, 그 모두를 감싸는 가장 작은 직사각형과 그 모두에 들어가는 가장 큰 직사각형이 둘 다 거의 정확히 16:9로 나타났습니다.
수학적으로 16:9는 양 극단인 4:3과 2.37:1의 기하평균입니다. 실제로 4:3, 16:9, 2.37:1 은 공비 \(4/3\)의 등비수열을 이룹니다(\(1.333 \to 1.778 \to 2.370\)).
$$ \frac{16}{9} \;=\; \sqrt{\frac{4}{3}\times 2.37} \;=\; 1.7778 $$가장 좁은 4:3과 가장 넓은 시네마스코프 사이의 "한가운데"를 곱셈으로 잡은 값 — 그래서 어떤 화면비의 콘텐츠를 올려도 가장 덜 손해 보는 절충점이 된 것이죠.
넓이를 \(A\)로 고정한 직사각형의 가로세로비를 \(r\)이라 하면, "가로×세로 \(=A\)"와 "가로÷세로 \(=r\)"에서 곧바로
$$ \text{가로} = \sqrt{A\,r}, \qquad \text{세로} = \sqrt{A/r} $$가 나옵니다. 즉 비율 \(r\)이 클수록(넓적할수록) 가로는 길어지고 세로는 짧아집니다. 이제 여러 비율의 직사각형을 중심을 맞춰 포개면, 모두를 감싸는 바깥 상자의 가로는 가장 넓적한 비 \(r_{\max}\)가, 세로는 가장 좁은 비 \(r_{\min}\)이 결정합니다.
$$ \text{가로}_{\text{바깥}} = \sqrt{A\,r_{\max}}, \qquad \text{세로}_{\text{바깥}} = \sqrt{A/r_{\min}} $$따라서 바깥 상자의 가로세로비는
$$ \frac{\sqrt{A\,r_{\max}}}{\sqrt{A/r_{\min}}} \;=\; \sqrt{r_{\max}\,r_{\min}} $$로, 정확히 양 극단 비의 기하평균입니다. 안쪽 상자(모두가 공통으로 덮는 부분)도 반대로 가로는 가장 좁은 비가, 세로는 가장 넓적한 비가 결정하므로 \(\dfrac{\sqrt{A\,r_{\min}}}{\sqrt{A/r_{\max}}} = \sqrt{r_{\min}\,r_{\max}}\) — 같은 값입니다. 그래서 바깥·안쪽 상자가 둘 다 기하평균 비율로 딱 떨어지죠.
$$ r_{\text{절충}} = \sqrt{r_{\min}\,r_{\max}} = \sqrt{\tfrac{4}{3}\times 2.37} \approx 1.78 = \tfrac{16}{9} $$A4 용지는 \(210 \times 297\) mm, 가로세로비가 √2 (≈1.414)입니다. 왜 하필 무리수일까요? 답은 "반으로 접어도 비율이 그대로"인 유일한 직사각형이기 때문입니다.
긴 변 \(h\), 짧은 변 \(w\)인 종이를 긴 변의 절반에서 자르면 \(\tfrac{h}{2} \times w\) 가 됩니다. 이 조각의 비율이 원래와 같으려면:
$$ \frac{h}{w} = \frac{w}{h/2} \;\Longrightarrow\; h^2 = 2w^2 \;\Longrightarrow\; \frac{h}{w} = \sqrt{2} $$그래서 ISO 216 규격은 A0의 넓이를 정확히 1 m², 비율을 \(\sqrt2\)로 정했습니다 (\(841 \times 1189\) mm). 이걸 반씩 자르면 A1, A2, … A4(\(210\times297\))가 차례로 나오죠. 덕분에 A4 두 장을 A3로 확대 복사해도 여백 없이 깔끔하게 맞고, 종이 무게(g/m²)도 넓이에 따라 정확히 절반씩 줄어듭니다.
악기를 조율할 때 기준이 되는 '라'(A4)음은 440 Hz입니다. 그런데 이건 자연이 정해 준 상수가 아니라, 사람들이 합의한 약속입니다.
역사적으로 기준 음높이는 제멋대로였습니다. 바로크 시대엔 약 415 Hz로 낮았고, 19세기엔 오케스트라들이 더 화려한 소리를 내려고 음을 자꾸 올려 "음고 인플레이션"이 벌어져 지역마다 A가 420~450 Hz로 들쭉날쭉했죠. 가수들이 비명을 질렀습니다.
1939년 런던 국제회의에서 A = 440 Hz로 합의했고, 이후 ISO 16 표준으로 굳어졌습니다. 여전히 일부 오케스트라는 더 밝은 소리를 위해 442·443을 쓰고, 시대악기 연주는 415로 돌아가기도 합니다. (인터넷에 떠도는 "432 Hz가 우주의 진동수"라는 주장은 과학적 근거가 없습니다.)
우리가 외우는 중력가속도 9.8 m/s²는, 원주율의 제곱 \(\pi^2 \approx 9.8696\)과 신기할 만큼 가깝습니다(차이는 1%도 안 됩니다). 정말 우연일까요? 놀랍게도 완전한 우연은 아닙니다.
열쇠는 "미터(m)를 어떻게 정의할 뻔했는가"에 있습니다. 18세기, 미터의 유력한 정의 후보 중 하나가 '1초 진자(seconds pendulum)'의 길이였습니다. 한 번 왕복하는 데 정확히 2초 (한쪽으로 1초)가 걸리는 진자의 길이를 1미터로 삼자는 안이었죠.
진자의 주기 공식은 다음과 같습니다.
$$ T = 2\pi\sqrt{\frac{L}{g}} $$1초 진자는 \(T = 2\)초이므로, 대입해 정리하면:
$$ 2 = 2\pi\sqrt{\frac{L}{g}} \;\Longrightarrow\; \sqrt{\frac{L}{g}} = \frac{1}{\pi} \;\Longrightarrow\; g = \pi^2 L $$즉 미터를 1초 진자의 길이로 정의했다면, \(L = 1\) m일 때 중력가속도는 정확히 \(g = \pi^2\)가 됩니다. 9.8이 \(\pi^2\)과 닮은 건 바로 이 때문이죠.
실제로는 미터가 적도에서 북극까지 거리의 1천만분의 1로 정의됐지만(중력은 위도에 따라 달라져 진자 정의가 불리했습니다), 두 정의가 거의 같은 길이로 수렴한 게 행운이었습니다. 표준 중력 \(g = 9.80665\)에서 1초 진자의 길이는 \(L = g/\pi^2 \approx 0.994\) m — 1미터에서 겨우 0.6% 차이입니다. 그래서 \(9.8 \approx \pi^2\)은 사라진 옛 정의가 남긴 흔적인 셈이죠.