정규분포 · convolution · 중심극한정리

도대체 정규분포는 어디서 솟아난 거지?

Where on earth does the bell curve come from?

키, 시험 점수, 측정 오차, 동전 던지기… 세상은 온통 종 모양 곡선으로 가득합니다. 그런데 왜 하필 그 모양이고, 왜 식이 $e^{-x^2/2}$처럼 생겼을까요? 동전 하나에서 출발해 끝까지 따라가 봅시다.

0반반이 모이면 종이 된다

가장 시시한 분포에서 시작합니다 — 동전 하나. 앞/뒤가 반반($\tfrac12,\tfrac12$), 막대 두 개죠. 그런데 동전을 여러 개 던져 합을 보면? 막대가 점점 늘어나며 — 신기하게도 매끄러운 종 모양으로 모여듭니다. 아래에서 동전 개수를 늘려 보세요(다른 출발 분포도 골라 보고요).

분포를 거듭 더하면 — 표준정규(주황)로

합칠 개수 n = 2

파란 막대는 "$n$개를 더한 값"의 분포를 표준화(평균 0, 표준편차 1로 맞춤)한 것, 주황 곡선은 표준정규 $\frac{1}{\sqrt{2\pi}}e^{-x^2/2}$입니다. 출발이 동전이든 주사위든 쌍봉이든 — $n$이 커지면 똑같은 종으로 빨려 들어갑니다.

이상하지 않나요? 출발 모양이 무엇이든 결과는 늘 같은 곡선입니다. 마치 모든 길이 한 곳으로 통하는 것처럼요. 왜 그 종이고, 왜 식이 $e^{-x^2/2}$일까? — 이 질문을 끝까지 파고들어 봅시다.

1더하기는 곧 convolution

본격적으로 들어가기 전에, 곧 나올 $f,\,g$가 뭔지부터 짚죠. 연속적인 값(키, 오차 같은)을 갖는 확률변수는 확률밀도함수(PDF) $f(x)$로 나타냅니다. 주의할 점 — $f(x)$는 "$x$일 확률"이 아닙니다. 연속값에서 정확히 $x$일 확률은 0이거든요. $f(x)$는 그 지점 부근의 빽빽한 정도 (밀도)이고, 확률은 넓이로 읽습니다.

확률밀도함수(PDF) 읽는 법

구간 $[a,b]$에 들어갈 확률 = 그 구간 위 곡선 아래 넓이 $\displaystyle\int_a^b f(x)\,dx$. 그래서 전체 넓이는 항상 1이고($\int_{-\infty}^{\infty} f=1$), $f(x)\ge 0$입니다. 0장 인터랙티브의 막대들도, 표준화하면 넓이가 1이 되도록 맞춘 밀도예요 — 그래서 주황 곡선(밀도)과 바로 겹쳐 볼 수 있었던 거죠.

이제 "분포를 더한다". 독립인 두 확률변수 $X,Y$의 합 $X+Y$의 밀도는, 각 밀도 $f,\,g$를 합성곱(convolution)한 것입니다. $X+Y=z$가 되려면 $X=x,\ Y=z-x$인 모든 경우(모든 $x$)를 쓸어 담아 곱하고 더해야 하니까요.

$$ (f * g)(z) = \int f(x)\,g(z-x)\,dx $$

동전 $n$개의 합은 곧 반반 분포를 자기 자신과 $n-1$번 합성곱한 것(이항분포)이죠. 0장의 인터랙티브가 한 일이 바로 이 반복 합성곱입니다. 그렇다면 질문은 이렇게 바뀝니다 — "어떤 분포든 계속 합성곱하면 왜 한 모양으로 수렴할까?"

2계속 더하면 한 모양으로 — 마르코프 안정상태처럼

합성곱을 거듭하면 분포는 점점 퍼지지만(분산이 커짐), 표준화해서 폭을 도로 맞춰 주면 — 모양이 어느 고정된 곡선으로 수렴합니다. 0장에서 시작 분포를 바꿔 봐도 똑같은 종으로 모이던 게 이거예요.

이 그림은 마르코프 연쇄의 안정 상태(stationary state)와 똑 닮았습니다. 마르코프 연쇄에선 전이를 계속 적용하면 출발 상태와 무관하게 한 분포로 수렴하죠. 여기선 "전이"가 합성곱+표준화이고, 그 수렴점(끌개)이 바로 우리가 찾는 종 모양입니다. 그러니 그 종은 "합성곱이라는 연산의 안정 상태"인 셈입니다.

왜 $\sqrt n$으로 되돌릴까 — 숨은 피타고라스

"폭을 도로 맞춘다"는 게 왜 하필 $\sqrt n$으로 나누는 걸까요? 독립인 둘을 더하면 분산이 더해집니다: $\sigma^2_{X+Y}=\sigma^2_X+\sigma^2_Y$. 그러면 표준편차는 $\sigma_{X+Y}=\sqrt{\sigma_X^2+\sigma_Y^2}$ — 직각삼각형의 두 변에서 빗변을 구하는 피타고라스 정리와 똑같은 꼴이죠! (확률변수를 벡터로, "독립"을 직교로 보면, 표준편차는 그 벡터의 길이이고 독립인 둘의 합은 직각으로 만나 빗변이 됩니다.) 그래서 같은 분포 $n$개를 더하면 폭이 $\sigma\sqrt n$으로 커지고 — 바로 그 $\sqrt n$으로 되돌려야 모양이 부동점(종)에 닿습니다.

끌개(attractor)가 되려면

수렴점은 그 연산에 대해 스스로 변하지 않는 모양이어야 합니다. 즉 "자기 자신과 합성곱해도(폭만 맞추면) 그대로인 분포"여야 하죠 — 합성곱의 부동점. 그게 누구인지 다음 장에서 정체를 밝힙니다.

3합성곱이 건드리지 못하는 것 — 가우스 함수

"자기 자신과 합성곱해도 모양이 그대로"인 분포를 찾으려면, 합성곱을 곱셈으로 바꿔 주는 안경 — 푸리에 변환을 쓰면 됩니다. 합성곱 정리에 따르면:

$$ \widehat{f * g} = \hat f \cdot \hat g $$

즉 $n$개를 더하는 일은 푸리에 쪽에선 그냥 $\hat f$를 $n$제곱하는 일입니다. 로그를 취하면 덧셈이 되죠. $\log \hat f(t)$를 펼치면 $i\mu t - \tfrac12\sigma^2 t^2 + (\text{고차항})$인데, 표준화 극한에서 평균은 0으로 맞춰지고 고차항은 모두 사라지며 오직 $-\tfrac12\sigma^2 t^2$만 살아남습니다. 남은 것의 푸리에 변환은 — 다시 종 모양입니다.

가우스 함수는 자기 자신의 푸리에 변환

$e^{-x^2/2}$는 푸리에 변환해도 다시 $e^{-t^2/2}$입니다(고유함수!). 그래서 "합성곱 → 곱셈" 세계에서 가우스는 곱해도 또 가우스 — 모양이 닫혀 있죠. 더 본질적으로, 합성곱 극한에서 살아남는 유일한 항이 이차식이라, 부동점은 "지수에 $x^2$이 든" 함수일 수밖에 없습니다. 그래서 $e^{-x^2}$입니다.

4왜 하필 $e^{-x^2}$인가 — 다트판의 비밀

식의 정체를 보는, 합성곱과는 전혀 다른 아름다운 길이 있습니다. 다트를 정중앙(과녁) 겨냥해 던진다고 합시다. 빗나간 자리를 $(x,y)$라 할 때, 다음 두 가지는 누구나 받아들일 만큼 자연스럽습니다.

① 가로 오차 $x$와 세로 오차 $y$는 서로 독립 — 좌우로 빗나간 정도가 위아래 빗나감을 알려 주진 않죠.
② 방향을 가리지 않는다 — 과녁을 똑바로 겨눴으니, 빗나갈 확률은 중심에서의 거리에만 달렸지 특정 방향을 편애하지 않습니다(회전 대칭).

놀랍게도 이 두 가지만으로 분포의 식이 강제로 정해집니다(허셜–맥스웰의 유도). 독립이면 결합밀도가 곱 $f(x)\,f(y)$이고, 회전 대칭이면 그 값이 거리 $r=\sqrt{x^2+y^2}$, 즉 $x^2+y^2$에만 의존해야 합니다.

그래서 $e$, 그래서 $\pi$

정리하면 우리는 이런 함수를 찾는 겁니다: 두 값을 곱했더니($f(x)f(y)$) 그 결과가 제곱의 합 $x^2+y^2$에만 의존한다. "더하기를 곱하기로 바꾸는" 함수는 세상에 하나뿐 — 지수함수입니다. $e^{-x^2}\cdot e^{-y^2}=e^{-(x^2+y^2)}$이니, 지수에 제곱이 든 $e^{-x^2}$이야말로 $x^2+y^2$이라는 합을 곱으로 바꿔 주는 유일한 함수죠. 그래서 정규분포의 식이 $e^{-x^2}$인 겁니다. 같은 이유로, 이 2차원 다트판의 전체 확률을 적분하면 $\int e^{-r^2}$에서 $\pi$가 튀어나와 — 정규분포 식의 $\sqrt{2\pi}$가 됩니다.

실제로 $f(x)f(y)=g(x^2+y^2)$에 $y=0$을 넣으면 $f(x)\,f(0)=g(x^2)$ — 로그를 취하면 $\log f$가 $x^2$의 일차식이어야 하고, 따라서

$$ f(x) = A\,e^{-c\,x^2}. $$

"독립 + 회전 대칭"이라는 소박한 두 조건만으로 가우스 함수가 유일하게 튀어나온 겁니다. 아래 그림처럼 가우스 분포의 등고선이 완벽한 원인 건 우연이 아니라 — 방향을 가리지 않는다는 그 정체성입니다.

2차원 가우스 — 등고선이 원이다

$e^{-(x^2+y^2)/2}$의 봉우리. 높이가 같은 점들(등고선)이 동심원입니다 — 어느 방향으로 봐도 똑같죠. "방향을 가리지 않는 분포 = 가우스"라는 허셜–맥스웰의 결론을 눈으로 보는 셈입니다.

5그래서, 어디에나 — 중심극한정리

지금까지의 이야기가 바로 중심극한정리(CLT)입니다.

중심극한정리

분산이 유한한 분포에서 독립으로 뽑아 많이 더하면(그리고 표준화하면), 출발 분포가 무엇이든 그 합은 정규분포로 수렴한다.

세상의 수많은 양 — 키, 측정 오차, 잡음 — 이 종 모양인 이유가 여기 있습니다. 그것들은 대개 수많은 작은 독립 요인들의 합이거든요. 개별 요인이 어떻게 생겼든, 합쳐지는 순간 가우스가 됩니다.

단, 분산이 유한할 때만

꼬리가 너무 두꺼워 분산이 무한한 분포(코시 분포 등)는 아무리 더해도 정규분포가 되지 않습니다. 대신 안정 분포(Lévy stable)라는 다른 끌개로 수렴하죠 — 가우스는 "유한 분산" 세계의 끌개일 뿐, 무한 분산 세계엔 두꺼운 꼬리(멱법칙)를 가진 사촌들이 따로 있습니다. 그 사촌 하나가 다음 주인공입니다.

6사촌 이야기 — 지프 분포의 자기닮음

가우스가 "더하기(합성곱)의 부동점"이라면, 지프 분포(멱법칙)는 또 다른 연산의 부동점입니다. 지프 법칙은 "$r$번째로 흔한 것의 빈도 $\propto 1/r$" — 로그–로그 그래프에서 직선으로 나타나죠.

어디에나 나타납니다. 영어 단어 빈도(원조 지프 — 언어 속 수의 이야기는 수학이 언어라면 언어도 수학이다 편에서 더 파고듭니다)부터 도시 인구, 소득·부의 분포(파레토의 80:20), 웹사이트 트래픽, 논문 인용 수, 지진 규모(구텐베르크–리히터 법칙), 회사 규모, 음원 재생 수까지 — 서로 아무 상관 없어 보이는 분야들이 똑같은 직선을 그립니다.

왜 신기한가 — 정규분포와 정반대

정규분포엔 "전형적인 크기"가 있습니다(평균 근처에 몰리고, 키 3m인 사람은 없죠). 그런데 멱법칙엔 전형적 크기가 없습니다(scale-free) — 확대해도 같은 모양이라 "보통 도시 크기" 같은 게 의미가 없어요. 게다가 꼬리가 두꺼워 소수가 전체를 지배하고(상위 몇이 대부분을 차지하는 80:20), 운이 나쁘면 분산은커녕 평균조차 무한일 수 있습니다. 종 모양의 안온한 세계와는 전혀 다른 질서죠.

더 신기한 건 — 전혀 다른 여러 메커니즘이 똑같은 멱법칙으로 수렴한다는 점입니다. 부익부(많이 가진 쪽이 더 끌어당기는 선호적 연결·율–사이먼 모형), 무작위 타이핑(원숭이가 자판을 마구 쳐도 단어 빈도가 지프가 됨·만델브로), 최소 노력 원리, 곱셈 과정과 임계 현상 등. 정규분포가 "덧셈의 보편 끌개"이듯, 멱법칙은 이런 과정들의 보편 끌개인 셈입니다.

가우스가 "더해도 가우스"이듯, 지프는 "나눠도 지프"입니다. 지프를 따르는 것들을 여러 묶음으로 쪼개 각각 다시 순위를 매기면 — 각 묶음도 같은 기울기의 지프가 됩니다. 아래에서 확인해 보세요.

지프 분포 — 파티션해도 평행한 직선

묶음 수 = 3

회색 점선이 원래 지프(기울기 $-1$). 전체 항목을 무작위로 여러 묶음으로 나눠 각각 재랭킹하면, 색점들이 모두 같은 기울기의 평행선을 그립니다 — 각 조각이 또 지프!

비밀은 멱법칙의 척도 불변성(scale invariance)입니다. $f(r)\propto r^{-s}$는 순위 축을 $\lambda$배 늘여도($f(\lambda r)=\lambda^{-s}f(r)$) 모양이 그대로죠. 묶음으로 쪼개 재랭킹하는 건 곧 순위 축을 다시 늘리는 일인데, 멱법칙은 그 변환에 끄떡없습니다. 그래서 부분도 전체와 같은 지수의 지프 — 자기닮음입니다.

그리고 이 둘은 한 가족입니다. 분산이 유한하면 합의 끌개는 가우스, 무한하면 끌개는 두꺼운 꼬리의 안정 분포(멱법칙) — 이른바 일반화 중심극한정리죠. 종 모양과 멱법칙은, 같은 "더하기의 부동점" 이야기의 양 끝이었던 셈입니다. 그런데 정규분포의 사촌은 — 한둘이 아닙니다.

7첫 자리의 비밀 — 벤포드 법칙

지프의 가까운 친척이 하나 더 있습니다. 실제 세상의 수들(나라별 인구, 강의 길이, 회계 장부, 거듭제곱 $2,4,8,16,\dots$)을 모아 맨 앞 자리 숫자만 세어 보면 — 1부터 9까지 고르게 나오지 않고, 1이 약 30%로 압도적이고 9는 4.6%뿐입니다. 이것이 벤포드 법칙이죠.

$$ P(\text{첫 자리}=d) = \log_{10}\!\Big(1+\tfrac1d\Big) $$

첫 자리 숫자 분포 vs 벤포드

파란 막대 = 실제 첫 자리 빈도, 주황 곡선 = 벤포드 $\log_{10}(1+1/d)$. 전혀 다른 수열들이 똑같은 계단을 그립니다.

비밀은 또 척도 불변성입니다. 자연스러운 수들은 자릿수에 걸쳐 폭넓게(여러 자릿수에) 퍼져 있어, 로그를 취하면 $[0,1)$ 위에 고르게 깔립니다. 그 균등분포에서 첫 자리가 $d$일 확률이 곧 $\log_{10}(1+1/d)$예요. 단위를 바꾸든(달러↔원) 2를 곱하든 — 로그 축에선 그냥 평행이동이라 분포가 변하지 않습니다. 이 불변성이 회계 부정·선거 조작 적발에도 쓰입니다(조작된 수는 벤포드를 어기거든요).

8곱하면 로그정규 — 곱셈판 중심극한정리

중심극한정리는 "더하면 정규"였습니다. 그렇다면 곱하면? 많은 양수 요인을 곱한 결과는 로그정규분포가 됩니다. 곱에 로그를 씌우면 곱이 합으로 바뀌고($\log\prod = \sum\log$), 그 합에 중심극한정리가 작동해 로그가 정규가 되거든요 — 그래서 원래 값은 "로그가 정규인" 로그정규입니다.

요인을 곱하면 — 한쪽으로 쏠린 종(로그정규)

곱한 요인 수 = 8

여러 요인의 곱은 오른쪽으로 긴 꼬리의 로그정규입니다. "로그 축으로"를 누르면 — 가로축에 로그를 씌우자마자 익숙한 대칭 종으로 펴지죠. 소득·파일 크기·생물 개체 수가 이렇게 생깁니다.

로그정규는 오른쪽 꼬리가 두꺼워 멱법칙과 혼동되곤 하지만, 다른 종족입니다. 작은 효과들이 더해지면 정규, 곱해지면 로그정규 — 같은 중심극한정리의 두 얼굴이죠.

9최댓값의 보편 법칙 — 극단값 분포

지금까지는 "합"의 이야기였습니다. 그렇다면 최댓값은? 100년에 한 번 오는 홍수, 역대 최고 기온, 보험의 최대 손실처럼 — 많은 표본 중 가장 큰 값도 보편 법칙을 따릅니다. 표본을 많이 모아 최댓값을 취하면, 출발 분포가 무엇이든 그 분포는 단 세 가지(굼벨·프레셰·바이불) 중 하나로 수렴하죠 (피셔–티펫–그네덴코 정리). 이른바 "최댓값의 중심극한정리"입니다.

최댓값을 거듭 뽑으면 — 극단값 분포로

한 번에 뽑는 표본 수 = 100

매번 표본 $n$개를 뽑아 그중 최댓값만 기록하길 반복한 히스토그램입니다. 합의 종(대칭)과 달리 한쪽으로 쏠린 굼벨 모양이 나오죠. CLT가 "합"의 보편 법칙이라면, 이건 "최대"의 보편 법칙입니다.

10새로운 종 곡선 — 트레이시–위덤

마지막으로, 21세기에 발견된 또 하나의 보편 분포. 큰 무작위 행렬의 가장 큰 고윳값은 어떻게 분포할까요? 1994년 트레이시와 위덤이 찾아낸 답이 트레이시–위덤 분포입니다. 놀랍게도 이 곡선은 무작위 행렬뿐 아니라 — 길게 줄 선 사람들의 키 순서(가장 긴 증가 부분수열), 박테리아 군집의 성장 경계, 심지어 버스 도착 간격까지 — 전혀 무관한 수많은 계의 극단·경계에서 똑같이 나타나, "새로운 종 곡선"이라 불립니다.

무작위 행렬의 최대 고윳값 — 트레이시–위덤

무작위 대칭 행렬을 많이 만들어 각자의 최대 고윳값을 모은 히스토그램입니다. 가우스의 좌우대칭과 달리 오른쪽으로 살짝 긴 꼬리를 가진, 트레이시–위덤 특유의 비대칭 곡선이죠.

보편성이라는 기적

더하면 정규, 곱하면 로그정규, 최대를 취하면 극단값, 무관한 것들을 묶으면 지프·벤포드, 무작위 행렬의 끝에선 트레이시–위덤. 출발이 무엇이든, 충분히 많이 모이면 개별 사정은 씻겨 나가고 몇 안 되는 보편 곡선만 남습니다. "도대체 정규분포는 어디서 솟아났지?"라는 물음의 진짜 답은 이거예요 — 세상이 원래 그렇게, 보편 법칙으로 수렴하도록 생겨 먹었다.

참고 자료

중심극한정리 · 합성곱 — Central limit theorem · Convolution of distributions
정규분포 · 회전 대칭 유도 — Normal distribution · Herschel–Maxwell derivation
가우스 함수의 푸리에 변환(고유함수) — Gaussian function
안정 분포 · 일반화 CLT — Stable distribution
지프 법칙 · 멱법칙 · 척도 불변성 — Zipf's law · Power law
벤포드 법칙 — Benford's law
로그정규분포 — Log-normal distribution
극단값 이론 — Extreme value theory · Fisher–Tippett–Gnedenko · Gumbel
트레이시–위덤 분포 — Tracy–Widom distribution