AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

MobileMoE – 스마트폰에서 구동되는 온디바이스 MoE 언어 모델

MobileMoE는 모바일 기기에서 실행 가능한 MoE(Mixture-of-Experts) 언어 모델 패밀리다. 수천억 파라미터 LLM에서 검증된 MoE 아키텍처를 서브-빌리언 규모로 최적화해, 온디바이스 LLM의 새로운 파레토 프런티어를 수립했다. arXiv 논문(2605.27358)으로 공개됐다.

왜 온디바이스 MoE인가

100B+ 모델에서는 MoE가 사실상 표준이 됐지만, 10억 파라미터 미만의 온디바이스 규모에서는 MoE의 이점이 충분히 연구되지 않았다. MobileMoE는 이 공백을 채운다. 핵심 질문은 하나다: 모바일 메모리·연산 제약 아래서 MoE가 밀집 모델보다 효율적일 수 있는가?

아키텍처 설계

연구팀은 온디바이스 MoE 스케일링 법칙을 먼저 도출해, 모바일 제약 아래서 최적의 MoE 구성을 수식화했다. 발견된 스위트 스팟은:

  • 적당한 희소성(moderate sparsity): 너무 공격적인 전문가 선택은 품질을 해친다.
  • 세밀한 전문가(fine-grained experts): 거친 분할보다 세밀한 전문가 분할이 유리하다.
  • 공유 전문가(shared experts): 항상 활성화되는 공유 전문가가 메모리와 연산 효율을 동시에 개선한다.

이 구성은 메모리 최적과 연산 최적을 동시에 달성한다.

모델 스펙

모델활성 파라미터전체 파라미터
MobileMoE-S0.3B1.3B
MobileMoE-M0.6B3.0B
MobileMoE-L0.9B5.3B

학습 파이프라인

오픈소스 데이터셋만 사용한 4단계 학습 레시피:

  1. 사전학습(Pre-training)
  2. 중간 학습(Mid-training)
  3. 명령어 파인튜닝(Instruction fine-tuning)
  4. 양자화 인식 학습(Quantization-aware training, QAT)

성능

14개 벤치마크에서 평가한 결과:

비교 기준MobileMoE 결과
동급 온디바이스 밀집 LLM2-4배 적은 추론 FLOPs로 동급 이상 성능
OLMoE-1B-7B (SOTA MoE)파라미터 최대 60% 절감으로 동급 이상 성능

스마트폰 실제 구동 성능 (MobileMoE-S vs MobileLLM-Pro, INT4 동일 메모리 기준):

  • 프리필(Prefill): 1.8-3.8배 빠름
  • 디코드(Decode): 2.2-3.4배 빠름

어떤 케이스에 유용한가

  • 스마트폰·엣지 디바이스에서 LLM 추론을 로컬 실행해야 하는 경우
  • 클라우드 API 의존 없이 개인정보 보호가 필요한 온디바이스 AI 앱
  • 배터리·메모리 제약 환경에서 높은 언어 모델 품질이 필요한 경우

논문 정보

  • 제목: MobileMoE: Scaling On-Device Mixture of Experts
  • arXiv: 2605.27358

참고 자료



AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)