Where on earth does the bell curve come from?
키, 시험 점수, 측정 오차, 동전 던지기… 세상은 온통 종 모양 곡선으로 가득합니다. 그런데 왜 하필 그 모양이고, 왜 식이 \(e^{-x^2/2}\)처럼 생겼을까요? 동전 하나에서 출발해 끝까지 따라가 봅시다.
가장 시시한 분포에서 시작합니다 — 동전 하나. 앞/뒤가 반반(\(\tfrac12,\tfrac12\)), 막대 두 개죠. 그런데 동전을 여러 개 던져 합을 보면? 막대가 점점 늘어나며 — 신기하게도 매끄러운 종 모양으로 모여듭니다. 아래에서 동전 개수를 늘려 보세요(다른 출발 분포도 골라 보고요).
이상하지 않나요? 출발 모양이 무엇이든 결과는 늘 같은 곡선입니다. 마치 모든 길이 한 곳으로 통하는 것처럼요. 왜 그 종이고, 왜 식이 \(e^{-x^2/2}\)일까? — 이 질문을 끝까지 파고들어 봅시다.
본격적으로 들어가기 전에, 곧 나올 \(f,\,g\)가 뭔지부터 짚죠. 연속적인 값(키, 오차 같은)을 갖는 확률변수는 확률밀도함수(PDF) \(f(x)\)로 나타냅니다. 주의할 점 — \(f(x)\)는 "\(x\)일 확률"이 아닙니다. 연속값에서 정확히 \(x\)일 확률은 0이거든요. \(f(x)\)는 그 지점 부근의 빽빽한 정도 (밀도)이고, 확률은 넓이로 읽습니다.
이제 "분포를 더한다". 독립인 두 확률변수 \(X,Y\)의 합 \(X+Y\)의 밀도는, 각 밀도 \(f,\,g\)를 합성곱(convolution)한 것입니다. \(X+Y=z\)가 되려면 \(X=x,\ Y=z-x\)인 모든 경우(모든 \(x\))를 쓸어 담아 곱하고 더해야 하니까요.
$$ (f * g)(z) = \int f(x)\,g(z-x)\,dx $$동전 \(n\)개의 합은 곧 반반 분포를 자기 자신과 \(n-1\)번 합성곱한 것(이항분포)이죠. 0장의 인터랙티브가 한 일이 바로 이 반복 합성곱입니다. 그렇다면 질문은 이렇게 바뀝니다 — "어떤 분포든 계속 합성곱하면 왜 한 모양으로 수렴할까?"
합성곱을 거듭하면 분포는 점점 퍼지지만(분산이 커짐), 표준화해서 폭을 도로 맞춰 주면 — 모양이 어느 고정된 곡선으로 수렴합니다. 0장에서 시작 분포를 바꿔 봐도 똑같은 종으로 모이던 게 이거예요.
이 그림은 마르코프 연쇄의 안정 상태(stationary state)와 똑 닮았습니다. 마르코프 연쇄에선 전이를 계속 적용하면 출발 상태와 무관하게 한 분포로 수렴하죠. 여기선 "전이"가 합성곱+표준화이고, 그 수렴점(끌개)이 바로 우리가 찾는 종 모양입니다. 그러니 그 종은 "합성곱이라는 연산의 안정 상태"인 셈입니다.
"자기 자신과 합성곱해도 모양이 그대로"인 분포를 찾으려면, 합성곱을 곱셈으로 바꿔 주는 안경 — 푸리에 변환을 쓰면 됩니다. 합성곱 정리에 따르면:
$$ \widehat{f * g} = \hat f \cdot \hat g $$즉 \(n\)개를 더하는 일은 푸리에 쪽에선 그냥 \(\hat f\)를 \(n\)제곱하는 일입니다. 로그를 취하면 덧셈이 되죠. \(\log \hat f(t)\)를 펼치면 \(i\mu t - \tfrac12\sigma^2 t^2 + (\text{고차항})\)인데, 표준화 극한에서 평균은 0으로 맞춰지고 고차항은 모두 사라지며 오직 \(-\tfrac12\sigma^2 t^2\)만 살아남습니다. 남은 것의 푸리에 변환은 — 다시 종 모양입니다.
식의 정체를 보는, 합성곱과는 전혀 다른 아름다운 길이 있습니다. 다트를 정중앙(과녁) 겨냥해 던진다고 합시다. 빗나간 자리를 \((x,y)\)라 할 때, 다음 두 가지는 누구나 받아들일 만큼 자연스럽습니다.
놀랍게도 이 두 가지만으로 분포의 식이 강제로 정해집니다(허셜–맥스웰의 유도). 독립이면 결합밀도가 곱 \(f(x)\,f(y)\)이고, 회전 대칭이면 그 값이 거리 \(r=\sqrt{x^2+y^2}\), 즉 \(x^2+y^2\)에만 의존해야 합니다.
실제로 \(f(x)f(y)=g(x^2+y^2)\)에 \(y=0\)을 넣으면 \(f(x)\,f(0)=g(x^2)\) — 로그를 취하면 \(\log f\)가 \(x^2\)의 일차식이어야 하고, 따라서
$$ f(x) = A\,e^{-c\,x^2}. $$"독립 + 회전 대칭"이라는 소박한 두 조건만으로 가우스 함수가 유일하게 튀어나온 겁니다. 아래 그림처럼 가우스 분포의 등고선이 완벽한 원인 건 우연이 아니라 — 방향을 가리지 않는다는 그 정체성입니다.
지금까지의 이야기가 바로 중심극한정리(CLT)입니다.
세상의 수많은 양 — 키, 측정 오차, 잡음 — 이 종 모양인 이유가 여기 있습니다. 그것들은 대개 수많은 작은 독립 요인들의 합이거든요. 개별 요인이 어떻게 생겼든, 합쳐지는 순간 가우스가 됩니다.
가우스가 "더하기(합성곱)의 부동점"이라면, 지프 분포(멱법칙)는 또 다른 연산의 부동점입니다. 지프 법칙은 "\(r\)번째로 흔한 것의 빈도 \(\propto 1/r\)" — 로그–로그 그래프에서 직선으로 나타나죠.
어디에나 나타납니다. 영어 단어 빈도(원조 지프 — 언어 속 수의 이야기는 수학이 언어라면 언어도 수학이다 편에서 더 파고듭니다)부터 도시 인구, 소득·부의 분포(파레토의 80:20), 웹사이트 트래픽, 논문 인용 수, 지진 규모(구텐베르크–리히터 법칙), 회사 규모, 음원 재생 수까지 — 서로 아무 상관 없어 보이는 분야들이 똑같은 직선을 그립니다.
더 신기한 건 — 전혀 다른 여러 메커니즘이 똑같은 멱법칙으로 수렴한다는 점입니다. 부익부(많이 가진 쪽이 더 끌어당기는 선호적 연결·율–사이먼 모형), 무작위 타이핑(원숭이가 자판을 마구 쳐도 단어 빈도가 지프가 됨·만델브로), 최소 노력 원리, 곱셈 과정과 임계 현상 등. 정규분포가 "덧셈의 보편 끌개"이듯, 멱법칙은 이런 과정들의 보편 끌개인 셈입니다.
가우스가 "더해도 가우스"이듯, 지프는 "나눠도 지프"입니다. 지프를 따르는 것들을 여러 묶음으로 쪼개 각각 다시 순위를 매기면 — 각 묶음도 같은 기울기의 지프가 됩니다. 아래에서 확인해 보세요.
비밀은 멱법칙의 척도 불변성(scale invariance)입니다. \(f(r)\propto r^{-s}\)는 순위 축을 \(\lambda\)배 늘여도(\(f(\lambda r)=\lambda^{-s}f(r)\)) 모양이 그대로죠. 묶음으로 쪼개 재랭킹하는 건 곧 순위 축을 다시 늘리는 일인데, 멱법칙은 그 변환에 끄떡없습니다. 그래서 부분도 전체와 같은 지수의 지프 — 자기닮음입니다.
그리고 이 둘은 한 가족입니다. 분산이 유한하면 합의 끌개는 가우스, 무한하면 끌개는 두꺼운 꼬리의 안정 분포(멱법칙) — 이른바 일반화 중심극한정리죠. 종 모양과 멱법칙은, 같은 "더하기의 부동점" 이야기의 양 끝이었던 셈입니다. 그런데 정규분포의 사촌은 — 한둘이 아닙니다.
지프의 가까운 친척이 하나 더 있습니다. 실제 세상의 수들(나라별 인구, 강의 길이, 회계 장부, 거듭제곱 \(2,4,8,16,\dots\))을 모아 맨 앞 자리 숫자만 세어 보면 — 1부터 9까지 고르게 나오지 않고, 1이 약 30%로 압도적이고 9는 4.6%뿐입니다. 이것이 벤포드 법칙이죠.
$$ P(\text{첫 자리}=d) = \log_{10}\!\Big(1+\tfrac1d\Big) $$비밀은 또 척도 불변성입니다. 자연스러운 수들은 자릿수에 걸쳐 폭넓게(여러 자릿수에) 퍼져 있어, 로그를 취하면 \([0,1)\) 위에 고르게 깔립니다. 그 균등분포에서 첫 자리가 \(d\)일 확률이 곧 \(\log_{10}(1+1/d)\)예요. 단위를 바꾸든(달러↔원) 2를 곱하든 — 로그 축에선 그냥 평행이동이라 분포가 변하지 않습니다. 이 불변성이 회계 부정·선거 조작 적발에도 쓰입니다(조작된 수는 벤포드를 어기거든요).
중심극한정리는 "더하면 정규"였습니다. 그렇다면 곱하면? 많은 양수 요인을 곱한 결과는 로그정규분포가 됩니다. 곱에 로그를 씌우면 곱이 합으로 바뀌고(\(\log\prod = \sum\log\)), 그 합에 중심극한정리가 작동해 로그가 정규가 되거든요 — 그래서 원래 값은 "로그가 정규인" 로그정규입니다.
로그정규는 오른쪽 꼬리가 두꺼워 멱법칙과 혼동되곤 하지만, 다른 종족입니다. 작은 효과들이 더해지면 정규, 곱해지면 로그정규 — 같은 중심극한정리의 두 얼굴이죠.
지금까지는 "합"의 이야기였습니다. 그렇다면 최댓값은? 100년에 한 번 오는 홍수, 역대 최고 기온, 보험의 최대 손실처럼 — 많은 표본 중 가장 큰 값도 보편 법칙을 따릅니다. 표본을 많이 모아 최댓값을 취하면, 출발 분포가 무엇이든 그 분포는 단 세 가지(굼벨·프레셰·바이불) 중 하나로 수렴하죠 (피셔–티펫–그네덴코 정리). 이른바 "최댓값의 중심극한정리"입니다.
마지막으로, 21세기에 발견된 또 하나의 보편 분포. 큰 무작위 행렬의 가장 큰 고윳값은 어떻게 분포할까요? 1994년 트레이시와 위덤이 찾아낸 답이 트레이시–위덤 분포입니다. 놀랍게도 이 곡선은 무작위 행렬뿐 아니라 — 길게 줄 선 사람들의 키 순서(가장 긴 증가 부분수열), 박테리아 군집의 성장 경계, 심지어 버스 도착 간격까지 — 전혀 무관한 수많은 계의 극단·경계에서 똑같이 나타나, "새로운 종 곡선"이라 불립니다.