300년간 지배해온 기계학습 이론에 따르면 거대한 AI 모델은 실패할 것이라 예측되었지만, 복권 티켓 가설이 ChatGPT 같은 대규모 모델의 성공 비밀을 밝혀냈습니다.

300년 철칙을 깬 발견
2019년 이전까지 AI 연구자들은 한 가지 철칙을 믿었습니다. 모델이 너무 크면 ‘과적합’으로 망한다는 것이었죠.
과적합이란 시험 문제만 달달 외우고 응용력은 전혀 없는 학생과 같습니다. 훈련 데이터는 완벽하게 맞추지만 새로운 데이터에는 엉망으로 답하는 현상입니다.
이 이론은 300년 전 토마스 베이즈부터 시작된 통계학의 핵심 원리였습니다. ‘편향-분산 트레이드오프’라는 수학적 법칙이 증명했죠. 모델이 복잡할수록 노이즈를 학습하고, 단순할수록 패턴을 놓친다는 것입니다.
당시 연구자들은 이 법칙을 철석같이 믿었습니다. ChatGPT처럼 1750억 개 매개변수를 가진 모델을 제안했다면 비웃음을 샀을 겁니다.
금기를 깬 실험의 충격
그런데 2019년, 일부 연구자들이 대담한 실험을 했습니다. 이론의 경고를 무시하고 모델을 계속 키운 것입니다.
결과는 충격적이었습니다.
모델이 훈련 데이터를 완벽하게 외운 시점에서 멈추지 않고 더 키웠더니, 예상과 달리 성능이 다시 올라가기 시작했습니다. 이 현상을 ‘더블 디센트(Double Descent)’라고 부릅니다.

더 놀라운 건 OpenAI의 후속 연구였습니다. 모델 크기를 10배, 100배 늘릴 때마다 완전히 새로운 능력이 나타났습니다. 번역, 요약, 추론 같은 고급 기능들이 저절로 생겨났죠.
갑자기 모든 빅테크 회사들이 ‘크면 클수록 좋다’는 철학으로 바뀌었습니다. 구글, 마이크로소프트, 메타가 수천억 달러를 쏟아부으며 경쟁했습니다.
하지만 여전히 의문이 남았습니다. 왜 이런 일이 일어나는 걸까요?
복권 티켓의 비밀
답은 MIT의 조나단 프랭클과 마이클 카빈이 2018년에 발견한 ‘복권 티켓 가설’에 있었습니다.
그들은 신기한 실험을 했습니다.
1단계: 거대한 신경망을 완전히 학습시킵니다.
2단계: 학습된 네트워크에서 중요하지 않은 연결 96%를 제거합니다.
3단계: 남은 4%의 작은 네트워크만으로도 원래와 같은 성능이 나왔습니다.
여기까지는 단순히 ‘불필요한 부분을 정리했다’고 생각할 수 있습니다. 하지만 진짜 놀라운 발견은 그 다음이었습니다.
핵심 실험: 같은 4% 구조를 가진 작은 네트워크를 처음부터 학습시켜봤습니다. 단, 가중치 초기값을 무작위로 새로 설정했죠. 결과는 완전한 실패였습니다.
성공하는 작은 네트워크는 오직 ‘원래 거대한 네트워크에서 물려받은 특별한 초기 가중치’를 가진 것들뿐이었습니다. 마치 복권에서 당첨번호가 미리 정해져 있는 것처럼 말이죠.
이것이 바로 복권 티켓 가설입니다:
“거대한 신경망은 복잡한 해답을 암기하는 게 아니라, 내부에 숨어있는 수많은 작은 네트워크들 중에서 ‘당첨 티켓’을 찾는 것이다.”
매개변수가 많을수록 복권을 더 많이 사는 것과 같습니다. 당첨 확률이 높아지죠. 학습 과정은 억만 개의 복권 중에서 최고의 당첨 티켓을 찾는 거대한 추첨입니다.
뇌과학이 증명하는 통찰
흥미롭게도 인간의 뇌도 같은 원리로 작동합니다.
인간의 뇌는 860억 개의 뉴런과 100조 개의 연결을 가졌습니다. 어떤 기준으로도 극도로 ‘과도한 매개변수’를 가진 시스템이죠. 하지만 우리는 적은 예시로도 빠르게 학습하고 새로운 상황에 잘 적응합니다.
복권 티켓 가설로 보면 이해가 됩니다. 뇌의 거대한 연결망은 어떤 문제든 해결할 수 있는 최적의 작은 회로를 찾기 위한 탐색 공간인 것입니다.
실제로 뇌과학 연구에서도 특정 작업을 수행할 때 활성화되는 뉴런은 전체의 극히 일부라는 사실이 밝혀졌습니다. 복권 티켓 이론과 정확히 일치하죠.
AI 발전이 멈출 수 있는 이유
하지만 복권 티켓 가설은 희망적인 소식만 주지 않습니다. 중요한 한계도 시사합니다.
네트워크가 최적의 작은 해답을 찾는 데 성공할수록, 추가 확장의 효과는 줄어듭니다. 이미 좋은 복권을 찾았다면 더 많은 복권을 산다고 해서 극적으로 나아지지 않습니다.
실제로 최근 AI 업계에서는 단순한 크기 확장만으로는 한계가 있다는 목소리가 나오고 있습니다. 얀 르쿤(Yann LeCun) 같은 석학들은 근본적인 아키텍처 혁신 없이는 진정한 이해력을 얻기 어렵다고 주장합니다.
복권 티켓 메커니즘 자체가 이런 한계를 설명해줍니다. 현재의 성공이 앞으로도 계속될 것이라고 보장하지는 않습니다.
과학사에 새긴 교훈
이 발견은 과학 발전에 대한 중요한 교훈을 남겼습니다.
300년간 축적된 이론이 틀렸던 게 아닙니다. 편향-분산 트레이드오프는 여전히 유효합니다. 단지 우리가 상상했던 것보다 훨씬 정교하게 작동할 뿐이었죠.
복권 티켓 가설은 기존 원리를 뒤엎은 게 아니라, 그 원리가 어떻게 대규모에서 발현되는지를 밝혀냈습니다. 단순한 해답이 여전히 최고이고, 다만 그 해답을 찾는 방법이 우리 생각보다 훨씬 정교했던 것입니다.
과학사를 보면 이런 패턴이 반복됩니다. 대륙이동설은 판구조론이 메커니즘을 설명하면서 받아들여졌고, 양자역학도 실험 결과가 압도적이 되면서 인정받았습니다.
가장 중요한 발견들은 기존 이론의 경계를 과감히 넘나들 때 나타납니다. 복권 티켓 가설의 발견도 바로 그런 용기에서 나왔습니다.
우아한 발견의 의미
AI 연구에서 우연히 발견된 복권 티켓 가설은 우주가 얼마나 우아한지를 보여줍니다. 이론적 상식에 도전할 용기를 가진 사람들에게 때로는 놀라운 선물을 주기도 하죠.
진화도 비슷한 원리를 따릅니다. 거대한 유전적 가능성 공간에서 생존에 가장 우아한 해답을 찾아내는 과정입니다. 가장 성공적인 생물들은 가장 복잡한 게 아니라 가장 효율적으로 적응한 것들입니다.
학습 이론의 위기처럼 보였던 상황이 오히려 이론의 승리가 되었습니다. 대규모 신경망이 규칙을 어기며 성공하는 게 아니라, 우리가 상상하지 못했던 차원에서 그 규칙을 완벽하게 수행하고 있었던 것입니다.
수학적 확실성을 바탕으로 구축된 AI 분야에서 가장 중요한 발견이 불확실성을 받아들이는 용기에서 나왔다는 사실은 매우 의미심장합니다. 때로는 이론의 경계를 넘어서야만 이론의 진정한 깊이를 발견할 수 있습니다.
참고자료:
Comments