MobileMoE – 스마트폰에서 구동되는 온디바이스 MoE 언어 모델

왜 온디바이스 MoE인가
아키텍처 설계
모델 스펙
학습 파이프라인
성능
어떤 케이스에 유용한가
논문 정보
참고 자료

MobileMoE는 모바일 기기에서 실행 가능한 MoE(Mixture-of-Experts) 언어 모델 패밀리다. 수천억 파라미터 LLM에서 검증된 MoE 아키텍처를 서브-빌리언 규모로 최적화해, 온디바이스 LLM의 새로운 파레토 프런티어를 수립했다. arXiv 논문(2605.27358)으로 공개됐다.

왜 온디바이스 MoE인가

100B+ 모델에서는 MoE가 사실상 표준이 됐지만, 10억 파라미터 미만의 온디바이스 규모에서는 MoE의 이점이 충분히 연구되지 않았다. MobileMoE는 이 공백을 채운다. 핵심 질문은 하나다: 모바일 메모리·연산 제약 아래서 MoE가 밀집 모델보다 효율적일 수 있는가?

아키텍처 설계

연구팀은 온디바이스 MoE 스케일링 법칙을 먼저 도출해, 모바일 제약 아래서 최적의 MoE 구성을 수식화했다. 발견된 스위트 스팟은:

적당한 희소성(moderate sparsity): 너무 공격적인 전문가 선택은 품질을 해친다.
세밀한 전문가(fine-grained experts): 거친 분할보다 세밀한 전문가 분할이 유리하다.
공유 전문가(shared experts): 항상 활성화되는 공유 전문가가 메모리와 연산 효율을 동시에 개선한다.

이 구성은 메모리 최적과 연산 최적을 동시에 달성한다.

모델 스펙

모델	활성 파라미터	전체 파라미터
MobileMoE-S	0.3B	1.3B
MobileMoE-M	0.6B	3.0B
MobileMoE-L	0.9B	5.3B

학습 파이프라인

오픈소스 데이터셋만 사용한 4단계 학습 레시피:

사전학습(Pre-training)
중간 학습(Mid-training)
명령어 파인튜닝(Instruction fine-tuning)
양자화 인식 학습(Quantization-aware training, QAT)

성능

14개 벤치마크에서 평가한 결과:

비교 기준	MobileMoE 결과
동급 온디바이스 밀집 LLM	2-4배 적은 추론 FLOPs로 동급 이상 성능
OLMoE-1B-7B (SOTA MoE)	파라미터 최대 60% 절감으로 동급 이상 성능

스마트폰 실제 구동 성능 (MobileMoE-S vs MobileLLM-Pro, INT4 동일 메모리 기준):

프리필(Prefill): 1.8-3.8배 빠름
디코드(Decode): 2.2-3.4배 빠름

어떤 케이스에 유용한가

스마트폰·엣지 디바이스에서 LLM 추론을 로컬 실행해야 하는 경우
클라우드 API 의존 없이 개인정보 보호가 필요한 온디바이스 AI 앱
배터리·메모리 제약 환경에서 높은 언어 모델 품질이 필요한 경우

논문 정보

제목: MobileMoE: Scaling On-Device Mixture of Experts
arXiv: 2605.27358

참고 자료

MobileMoE: Scaling On-Device Mixture of Experts — arXiv

Like?

AI Sparkup