전체 128명의 전문가 중 16명만 불러와도 됩니다. 나머지 112명은 메모리에서 내려도 좋습니다. 그런데 성능은 거의 그대로입니다.

Allen Institute for AI(Ai2)와 UC Berkeley 연구팀이 MoE(Mixture-of-Experts) 모델을 구조적으로 모듈화하는 새로운 학습 방식 EMO를 발표했습니다. 핵심은 전문가들이 문법 패턴이 아닌 실제 도메인(수학, 코드, 의료 등)을 학습하도록 유도해, 필요한 도메인에 맞는 전문가 집합만 골라 쓸 수 있게 만드는 것입니다.
출처: EMO: Pretraining Mixture of Experts for Emergent Modularity – Allen Institute for AI
기존 MoE의 구조적 한계
MoE 아키텍처는 요즘 대형 언어 모델의 표준이 됐습니다. DeepSeek, Qwen 같은 모델들이 모두 이 방식을 씁니다. 원리는 간단합니다. 수백억 개의 파라미터를 여러 ‘전문가’로 나눠두고, 각 토큰이 처리될 때 그 중 일부만 활성화합니다. 덕분에 전체 파라미터 수는 방대하지만 실제 연산 비용은 낮게 유지됩니다.
문제는 그럼에도 전체 모델을 메모리에 올려야 한다는 점이었습니다. 수학 문제만 풀 거라도, 코드만 생성할 거라도, 모든 전문가를 메모리에 얹어두어야 했죠. 왜냐하면 기존 MoE에서 전문가들은 ‘수학’이나 ‘코드’ 같은 개념이 아니라, ‘전치사’, ‘구두점’, ‘관사’ 같은 얕은 언어 패턴에 반응하기 때문입니다. 어떤 문서를 처리하든 비슷비슷한 전문가들이 필요해지고, 특정 분야만 담당하는 전문가 집합을 뽑아낼 수가 없었습니다.
문서 경계를 학습 신호로 쓴다
EMO의 아이디어는 단순합니다. 하나의 문서 안에 있는 모든 토큰이 반드시 같은 전문가 풀에서만 라우팅되도록 강제하는 겁니다. 문서 안의 내용은 대체로 같은 도메인에 속하니, 이 제약 조건 하나가 모델로 하여금 도메인 단위의 전문화를 유도합니다.
구체적으로는 이렇게 작동합니다.
- 문서 전체 토큰의 라우팅 선호도를 평균 냅니다.
- 가장 자주 선택된 전문가들로 그 문서의 공유 풀을 구성합니다.
- 해당 문서의 모든 토큰은 이 풀 안에서만 전문가를 선택합니다.
학습 안정성을 위한 조정도 두 가지 필요했습니다. 부하 분산 계산을 개별 배치가 아닌 여러 문서에 걸쳐 전역으로 처리하고, 훈련 중 풀 크기를 무작위로 변동시켜 추론 시 다양한 크기의 서브셋에 적응하게 만들었습니다.
전문가 12.5%, 성능 손실 3%
연구팀은 128개 전문가, 활성 파라미터 10억 개, 총 140억 개 파라미터 규모의 모델을 1조 토큰으로 훈련했습니다. 전체 모델 성능은 같은 구조의 표준 MoE와 동등합니다.
전문가를 줄여가며 실험한 결과는 인상적입니다. 128개 중 32개(25%)만 남겼을 때 벤치마크 평균 성능 손실은 약 1% 포인트. 16개(12.5%)로 줄여도 손실은 3% 포인트에 그칩니다. 반면 같은 조건에서 표준 MoE는 10~15% 포인트 성능이 무너지고, 일부 벤치마크에서는 밀집 모델 수준 이하로 떨어집니다.
수학 벤치마크 GSM8K에서는 파인튜닝 후 12.5%의 전문가만으로 전체 모델과 동일한 수준을 회복했습니다. 표준 MoE의 경우 절반의 전문가만으로도 점수가 4.9까지 떨어졌는데, EMO는 16개 전문가로 12.2를 유지했습니다.
전문가들이 실제로 무엇을 배웠나
연구팀은 각 토큰이 라우터를 통해 전문가에게 전달되는 확률 패턴을 분석했습니다. 비슷한 패턴을 가진 토큰들을 클러스터링하면, 모델이 내부적으로 어떤 개념을 묶어 처리하는지 볼 수 있습니다.
표준 MoE에서는 클러스터가 전치사, 고유명사, 정관사 같은 품사 수준에 형성됩니다. 같은 문서 안의 토큰들도 여러 클러스터에 흩어집니다. EMO에서는 완전히 달랐습니다. 건강·의료, 미국 정치, 영화·음악·도서 리뷰 같은 실제 주제 단위로 클러스터가 만들어지고, 같은 문서의 토큰들은 하나의 클러스터로 수렴합니다.
연구팀이 공개한 인터랙티브 시각화에서 이 차이를 직접 확인할 수 있습니다.
메모리 절약 그 이상의 가능성
가장 직접적인 활용은 메모리 제약 환경에서 도메인별 전문가만 로드해 운영하는 것입니다. 수학만 다루는 서비스라면 수학 전문가 서브셋만 올리면 됩니다. 실험에서 EMO 서브셋은 동일 메모리 예산에서 처음부터 학습한 표준 MoE나 밀집 모델을 능가했습니다.
연구팀은 콘텐츠 필터링 활용도 검토했습니다. 아동 친화적 앱이라면, 스팸·도박·성인 콘텐츠에 반응하는 클러스터를 통째로 끄는 방식입니다. 현재는 서브그룹을 재학습시킨 뒤 전체 모델에 플러그인하면 성능 개선이 일부 이뤄지지만, 독립 서브그룹 수준까지는 아직 미치지 못합니다. 어떻게 서브그룹을 선택하고 조합할지, 재학습 방법을 어떻게 개선할지는 향후 연구 과제로 남아있습니다.
Ai2는 EMO 모델과 학습 코드를 Hugging Face와 GitHub에 모두 공개했습니다.

답글 남기기