MobileMoE는 모바일 기기에서 실행 가능한 MoE(Mixture-of-Experts) 언어 모델 패밀리다. 수천억 파라미터 LLM에서 검증된 MoE 아키텍처를 서브-빌리언 규모로 최적화해, 온디바이스 LLM의 새로운 파레토 프런티어를 수립했다. arXiv 논문(2605.27358)으로 공개됐다.
왜 온디바이스 MoE인가
100B+ 모델에서는 MoE가 사실상 표준이 됐지만, 10억 파라미터 미만의 온디바이스 규모에서는 MoE의 이점이 충분히 연구되지 않았다. MobileMoE는 이 공백을 채운다. 핵심 질문은 하나다: 모바일 메모리·연산 제약 아래서 MoE가 밀집 모델보다 효율적일 수 있는가?
아키텍처 설계
연구팀은 온디바이스 MoE 스케일링 법칙을 먼저 도출해, 모바일 제약 아래서 최적의 MoE 구성을 수식화했다. 발견된 스위트 스팟은:
- 적당한 희소성(moderate sparsity): 너무 공격적인 전문가 선택은 품질을 해친다.
- 세밀한 전문가(fine-grained experts): 거친 분할보다 세밀한 전문가 분할이 유리하다.
- 공유 전문가(shared experts): 항상 활성화되는 공유 전문가가 메모리와 연산 효율을 동시에 개선한다.
이 구성은 메모리 최적과 연산 최적을 동시에 달성한다.
모델 스펙
| 모델 | 활성 파라미터 | 전체 파라미터 |
|---|---|---|
| MobileMoE-S | 0.3B | 1.3B |
| MobileMoE-M | 0.6B | 3.0B |
| MobileMoE-L | 0.9B | 5.3B |
학습 파이프라인
오픈소스 데이터셋만 사용한 4단계 학습 레시피:
- 사전학습(Pre-training)
- 중간 학습(Mid-training)
- 명령어 파인튜닝(Instruction fine-tuning)
- 양자화 인식 학습(Quantization-aware training, QAT)
성능
14개 벤치마크에서 평가한 결과:
| 비교 기준 | MobileMoE 결과 |
|---|---|
| 동급 온디바이스 밀집 LLM | 2-4배 적은 추론 FLOPs로 동급 이상 성능 |
| OLMoE-1B-7B (SOTA MoE) | 파라미터 최대 60% 절감으로 동급 이상 성능 |
스마트폰 실제 구동 성능 (MobileMoE-S vs MobileLLM-Pro, INT4 동일 메모리 기준):
- 프리필(Prefill): 1.8-3.8배 빠름
- 디코드(Decode): 2.2-3.4배 빠름
어떤 케이스에 유용한가
- 스마트폰·엣지 디바이스에서 LLM 추론을 로컬 실행해야 하는 경우
- 클라우드 API 의존 없이 개인정보 보호가 필요한 온디바이스 AI 앱
- 배터리·메모리 제약 환경에서 높은 언어 모델 품질이 필요한 경우
논문 정보
- 제목: MobileMoE: Scaling On-Device Mixture of Experts
- arXiv: 2605.27358