AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

Ollama MLX 엔진 업데이트, Apple Silicon 로컬 모델 품질과 속도를 동시에 끌어올린 방법

4비트 양자화 모델은 빠르지만 품질을 포기해야 한다는 게 통설이었습니다. Ollama의 최신 MLX 엔진 업데이트가 이 전제를 바꿨습니다. Apple Silicon 기기에서 품질, 속도, 에이전트 응답성을 한꺼번에 끌어올린 업데이트로, 6월 11일 공식 블로그를 통해 발표됐습니다.

출처: Ollama’s highest performance on Apple Silicon yet with MLX – Ollama Blog

품질 손실을 절반으로, NVFP4 양자화

로컬에서 LLM을 돌릴 때 가장 큰 타협점은 양자화입니다. 풀 정밀도(BF16) 모델은 메모리를 너무 많이 차지하기 때문에, 보통 4비트로 압축한 q4_K_M 포맷을 씁니다. 압축이 늘어날수록 모델이 얼마나 “잘못 이해하는지”를 나타내는 지표인 퍼플렉시티(perplexity)가 높아집니다.

이번 업데이트의 핵심은 NVIDIA가 데이터센터용으로 개발한 NVFP4 포맷 지원입니다. Gemma 4 12B 기준으로 측정했을 때, BF16의 퍼플렉시티가 17.54, 기존 q4_K_M이 18.36인 반면 NVFP4는 17.95를 기록했습니다. 두 4비트 포맷 사이의 품질 차이를 절반 가까이 좁힌 겁니다.

NVFP4가 더 나은 이유는 모델 가중치의 국소적인 동적 범위를 더 세밀하게 추적하기 때문입니다. 같은 4비트라도 수치를 얼마나 정교하게 표현하느냐의 차이입니다. 덕분에 데이터센터 배포용으로 최적화된 모델을 그대로 맥북에서 실행할 수 있게 됐습니다.

출력 속도 20% 향상

품질 개선만이 아닙니다. 엔진 자체도 빨라졌습니다.

여러 연산을 MLX의 JIT(Just-in-Time) 컴파일러를 활용해 단일 Metal 커널로 묶었고, GPU 기반 샘플링도 재설계했습니다. 8,300 토큰 입력 기준 NVFP4 포맷의 출력 속도는 초당 55토큰으로, 기존 q4_K_M의 46토큰보다 약 20% 빠릅니다.

에이전트 워크플로우를 위한 스냅샷 시스템

속도와 품질보다 더 구조적인 변화는 에이전트 워크플로우 지원입니다.

에이전트는 도구 호출마다 새 요청을 보내는데, 매 요청에 시스템 프롬프트, 도구 정의, 지금까지 읽은 파일 전체를 다시 전송합니다. 하나의 작업에서 모델이 동일한 컨텍스트를 수십 번 처리하게 되는 구조입니다. 프리픽스 캐싱이 이를 방지하지만, 실제 에이전트 세션에서는 상황이 더 복잡합니다.

Ollama의 새 스냅샷 시스템은 대화의 주요 지점에서 모델 상태를 저장합니다.

  1. 서브에이전트로 넘겼다가 다시 돌아오는 멀티에이전트 구조에서, 공유된 컨텍스트는 한 번만 처리됩니다.
  2. 추론 토큰을 생성했다가 대화 기록에서 제거하는 사고(thinking) 모델에서, 다음 턴이 이전 상태에서 재개됩니다.
  3. 응답을 재생성하거나 다른 방향으로 분기할 때, 캐시를 처음부터 다시 쌓지 않습니다.

새 모델들의 슬라이딩 윈도우 어텐션이나 순환 레이어는 상태를 되감을 수 없어 이런 시스템을 구현하기 까다롭습니다. Ollama는 분기 지점, 긴 프롬프트 중간, 각 응답 직전 등 대화가 돌아올 가능성이 높은 지점에만 선택적으로 스냅샷을 저장해 메모리를 아꼈습니다.

클라우드와 로컬의 경계가 좁아지고 있습니다

NVFP4는 원래 데이터센터용 포맷이고, 스냅샷 시스템도 Ollama 클라우드에서 쓰던 방식을 로컬로 가져온 것입니다. 서버급 기술이 맥북으로 내려오고 있다는 점에서, 이번 업데이트는 단순한 성능 개선 이상의 방향성을 담고 있습니다.

Apple Silicon 기기에서 에이전트를 돌리거나 코딩 도우미로 활용하는 분들이라면, 원문에 포함된 M5 Max 실제 데모 영상도 함께 확인해 보시면 좋겠습니다.


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다