AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

Ollama 0.19, MLX 탑재로 Mac에서 AI 추론 속도 2배 빨라졌다

Claude Code나 OpenClaw 같은 AI 코딩 에이전트를 Mac에서 로컬로 돌리는 사람이 빠르게 늘고 있습니다. 클라우드 API 비용과 요청 제한에 부딪힌 개발자들이 로컬 모델로 눈을 돌리는 흐름 속에서, Ollama가 성능을 크게 끌어올린 업데이트를 내놨습니다.

사진 출처: Ollama 공식 블로그

Ollama가 Apple Silicon 전용 머신러닝 프레임워크인 MLX를 기반으로 한 새 버전(0.19)을 프리뷰로 공개했습니다. Apple의 통합 메모리 구조를 최대한 활용하도록 내부 엔진을 재구축한 것으로, M5 칩 기준 Qwen3.5-35B 모델에서 프리프릴(prefill) 속도가 약 1.57배, 토큰 생성(decode) 속도는 약 1.93배 향상됐습니다.

출처: Ollama is now powered by MLX on Apple Silicon in preview – Ollama Blog

MLX 전환이 왜 성능 차이를 만드나

MLX는 Apple이 직접 만든 오픈소스 머신러닝 프레임워크로, Apple Silicon의 가장 큰 특징인 통합 메모리(Unified Memory)에 최적화되어 있습니다. CPU와 GPU가 메모리를 공유하는 구조인데, 기존 Ollama가 사용하던 llama.cpp 기반 엔진은 이 구조를 충분히 활용하지 못했습니다.

MLX로 전환하면 메모리 복사 없이 연산이 가능해져 병목이 줄어들고, M5·M5 Pro·M5 Max 칩에서는 새로 추가된 GPU Neural Accelerator까지 활용할 수 있습니다. 이 가속기는 첫 번째 토큰이 나오기까지 걸리는 시간(TTFT)과 이후 생성 속도 모두를 개선합니다.

NVFP4와 캐시 개선: 품질과 효율 동시에

이번 업데이트에는 MLX 전환 외에도 두 가지 변화가 더 있습니다.

첫째, NVIDIA의 NVFP4 양자화 포맷을 지원합니다. 기존 Q4_K_M 방식보다 메모리 사용량과 대역폭을 줄이면서도 모델 정확도를 잘 유지하는 포맷으로, 클라우드 추론 서비스들이 이미 NVFP4를 표준으로 채택하고 있어 로컬 결과와 프로덕션 결과 간 일관성도 높아집니다.

둘째, 캐시 구조가 개선됐습니다. 대화 간 캐시를 재사용하고, 프롬프트 내 중요 지점에 자동으로 스냅샷을 저장합니다. Claude Code처럼 공유 시스템 프롬프트를 반복 사용하는 코딩 에이전트에서 캐시 히트율이 높아져 응답이 빨라집니다.

로컬 AI 수요가 커지는 타이밍

이번 업데이트가 나온 시점은 공교롭습니다. GitHub에서 30만 스타를 넘긴 OpenClaw 열풍, Claude Code와 ChatGPT Codex 같은 클라우드 코딩 도구의 비용 부담이 겹치면서, 개인 Mac에서 로컬 모델을 돌리려는 수요가 어느 때보다 높아져 있습니다.

다만 현재 프리뷰에서 지원하는 모델은 Alibaba의 Qwen3.5-35B-A3B 하나뿐이고, 32GB 이상의 통합 메모리가 필요합니다. Ollama 측은 지원 아키텍처를 계속 확장할 예정이라고 밝혔습니다. 구체적인 벤치마크 수치와 향후 모델 지원 계획은 원문에서 확인할 수 있습니다.

참고자료: Running local models on Macs gets faster with Ollama’s MLX support – Ars Technica

Fediverse reactions

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다