AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

Modular MAX – Apple Silicon GPU에서 실행되는 AI 모델 서빙 스택

Modular MAX는 Mojo와 함께 제공되는 AI 모델 실행·서빙 스택이다. 2026년 26.4 릴리스와 이후 nightly에서 M1~M5 Apple Silicon GPU 지원이 확장되면서, 적절한 크기의 텍스트 LLM, 비전 모델, 이미지 확산 모델을 Mac 로컬 GPU에서 실행할 수 있게 됐다.

무엇이 바뀌었나

Modular는 먼저 Mojo에서 Apple Silicon GPU 프로그래밍을 열고, 이후 MAX 그래프 실행을 지원했다. 26.4 릴리스부터는 여러 MAX 모델이 Apple Silicon GPU에서 직접 실행된다. 현재 nightly 기준 M1부터 M5까지 지원 대상이지만, 내부 테스트는 M3~M5 시스템에 더 집중되어 있어 구형 SoC에서는 모델별 호환성 차이가 있을 수 있다.

M5는 Neural Accelerators 기반 전용 행렬 곱 연산을 포함하므로 MAX가 가장 잘 맞는 대상으로 언급된다. 다만 Modular는 아직 MLX 등 다른 프레임워크와의 직접 벤치마크를 공식 수치로 제시하지는 않았다.

실행 예시

간단한 LLM 생성:

max generate \
  --model-path=Qwen/Qwen3.5-0.8B \
  --device-memory-utilization 0.5 \
  --max-batch-size 1 \
  --prompt "The sky is blue because"

로컬 서빙:

max serve \
  --model-path=Qwen/Qwen3.5-0.8B \
  --device-memory-utilization 0.5 \
  --max-batch-size 1

--device-memory-utilization--max-batch-size는 Apple Silicon의 CPU/GPU 공유 메모리 환경에서 MAX가 과도하게 메모리를 잡지 않도록 제한하는 옵션이다.

15GB 이상 여유 메모리가 있으면 FLUX.2 klein 4B 이미지 생성 모델도 로컬 실행 예시로 제시됐다.

사용 대상 및 케이스

  • Mac 기반 AI 개발자: MLX, llama.cpp 외에 Mojo/MAX 기반 모델 실행 스택을 실험하고 싶을 때
  • 모델 서빙 엔지니어: 같은 MAX 인터페이스로 로컬 Mac과 서버 환경을 이어 보고 싶을 때
  • Mojo 커널 개발자: Apple Silicon GPU와 M5 Neural Accelerators를 겨냥한 커널 최적화를 실험할 때

관련 문서

참고 자료



AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)