ChatGPT에게 새로운 정보를 학습시키면 어떻게 될까요? 놀랍게도 이전에 알던 내용을 잊어버립니다. 이를 “치명적 망각(catastrophic forgetting)”이라고 부르는데, 현재 AI의 가장 근본적인 한계 중 하나죠. 우리 뇌는 새로운 걸 배워도 옛날 기억을 잊지 않는데, AI는 왜 안 될까요?

Google Research가 NeurIPS 2025에 발표한 논문 “Nested Learning: The Illusion of Deep Learning Architectures”는 이 문제를 완전히 새로운 시각에서 접근합니다. 모델 구조(architecture)와 학습 알고리즘(optimization)을 별개로 보지 않고, “다층적 최적화 문제의 집합”으로 바라보는 새로운 패러다임을 제시했죠.
출처: Introducing Nested Learning: A new ML paradigm for continual learning – Google Research Blog
학습 과정 자체가 메모리다
Nested Learning의 핵심 통찰은 이렇습니다. 복잡한 ML 모델은 사실 여러 개의 최적화 문제가 서로 중첩되거나 병렬로 실행되는 시스템이라는 것. 각각의 최적화 문제는 자신만의 “컨텍스트 흐름(context flow)”을 가지고 있습니다.
예를 들어볼까요? 우리가 당연하게 여기던 역전파(backpropagation) 알고리즘. 이걸 Nested Learning 관점에서 보면 일종의 연상 기억(associative memory) 시스템입니다. 모델은 특정 데이터 포인트를 그것이 얼마나 “놀라운지”를 나타내는 오차 값과 매핑해서 학습하죠. 마찬가지로 트랜스포머의 어텐션 메커니즘도 토큰 간의 매핑을 학습하는 연상 기억 모듈로 볼 수 있습니다.
이렇게 보면 모델의 각 구성요소가 얼마나 자주 업데이트되는지(update frequency)에 따라 “레벨”을 매길 수 있습니다. 이 레벨들의 질서 있는 집합이 바로 Nested Learning 패러다임의 핵심이에요.
단기 메모리와 장기 메모리 사이의 스펙트럼
이 관점은 실용적인 개선으로 이어집니다. Google 연구팀은 Continuum Memory System(CMS)이라는 개념을 제안했어요. 일반 트랜스포머에서는 시퀀스 모델이 단기 메모리 역할을, 피드포워드 네트워크가 장기 메모리 역할을 합니다. CMS는 이걸 확장해서 메모리를 “스펙트럼”으로 봅니다. 각기 다른 업데이트 빈도를 가진 모듈들이 연속적으로 배치되어, 훨씬 풍부하고 효과적인 메모리 시스템을 만드는 거죠.
연구팀은 이 원리를 적용한 Hope라는 실험 아키텍처를 개발했습니다. Hope는 자기 자신을 수정하는(self-modifying) 순환 구조로, 무한히 반복되는 학습 레벨을 만들 수 있어요. 말 그대로 자기 메모리를 스스로 최적화하는 구조입니다.
실제로 더 잘 작동한다
실험 결과는 인상적이었습니다. Hope는 일반적인 언어 모델링과 상식 추론 과제에서 최신 순환 모델이나 표준 트랜스포머보다 낮은 perplexity와 높은 정확도를 보였어요. 특히 긴 컨텍스트를 다루는 “Needle-In-Haystack” 과제에서 뛰어난 메모리 관리 능력을 입증했습니다.
하지만 이 연구의 진짜 가치는 단순히 성능 향상이 아닙니다. 모델 구조와 최적화를 통합적으로 보는 새로운 설계 차원을 열었다는 점이죠. 그동안 우리는 이 둘을 별개로 취급하며 한계에 부딪혀왔는데, Nested Learning은 이들을 하나의 일관된 시스템으로 봄으로써 새로운 가능성을 보여줬습니다.
인간 뇌에 한 걸음 더 가까이
현재 LLM들은 학습 데이터나 즉각적인 입력 컨텍스트에 갇혀 있습니다. 마치 전향성 기억상실증 환자처럼 새로운 장기 기억을 만들 수 없죠. 반면 인간의 뇌는 신경가소성을 통해 끊임없이 새로운 경험을 학습하면서도 이전 기억을 유지합니다.
Nested Learning은 이 격차를 좁히는 원리적 접근법을 제시합니다. 스스로 개선하는 AI를 향한 견고한 기초를 마련한 셈이죠. 물론 아직 갈 길이 멉니다. 하지만 적어도 우리는 이제 올바른 방향을 보고 있는 것 같습니다.
참고자료:
- Nested Learning: The Illusion of Deep Learning Architectures – NeurIPS 2025 논문

답글 남기기