Ollama 0.19, MLX 탑재로 Mac에서 AI 추론 속도 2배 빨라졌다

2026-04-02

﹒

2 minutes

Claude Code나 OpenClaw 같은 AI 코딩 에이전트를 Mac에서 로컬로 돌리는 사람이 빠르게 늘고 있습니다. 클라우드 API 비용과 요청 제한에 부딪힌 개발자들이 로컬 모델로 눈을 돌리는 흐름 속에서, Ollama가 성능을 크게 끌어올린 업데이트를 내놨습니다.

사진 출처: Ollama 공식 블로그

Ollama가 Apple Silicon 전용 머신러닝 프레임워크인 MLX를 기반으로 한 새 버전(0.19)을 프리뷰로 공개했습니다. Apple의 통합 메모리 구조를 최대한 활용하도록 내부 엔진을 재구축한 것으로, M5 칩 기준 Qwen3.5-35B 모델에서 프리프릴(prefill) 속도가 약 1.57배, 토큰 생성(decode) 속도는 약 1.93배 향상됐습니다.

출처: Ollama is now powered by MLX on Apple Silicon in preview – Ollama Blog

MLX 전환이 왜 성능 차이를 만드나

MLX는 Apple이 직접 만든 오픈소스 머신러닝 프레임워크로, Apple Silicon의 가장 큰 특징인 통합 메모리(Unified Memory)에 최적화되어 있습니다. CPU와 GPU가 메모리를 공유하는 구조인데, 기존 Ollama가 사용하던 llama.cpp 기반 엔진은 이 구조를 충분히 활용하지 못했습니다.

MLX로 전환하면 메모리 복사 없이 연산이 가능해져 병목이 줄어들고, M5·M5 Pro·M5 Max 칩에서는 새로 추가된 GPU Neural Accelerator까지 활용할 수 있습니다. 이 가속기는 첫 번째 토큰이 나오기까지 걸리는 시간(TTFT)과 이후 생성 속도 모두를 개선합니다.

NVFP4와 캐시 개선: 품질과 효율 동시에

이번 업데이트에는 MLX 전환 외에도 두 가지 변화가 더 있습니다.

첫째, NVIDIA의 NVFP4 양자화 포맷을 지원합니다. 기존 Q4_K_M 방식보다 메모리 사용량과 대역폭을 줄이면서도 모델 정확도를 잘 유지하는 포맷으로, 클라우드 추론 서비스들이 이미 NVFP4를 표준으로 채택하고 있어 로컬 결과와 프로덕션 결과 간 일관성도 높아집니다.

둘째, 캐시 구조가 개선됐습니다. 대화 간 캐시를 재사용하고, 프롬프트 내 중요 지점에 자동으로 스냅샷을 저장합니다. Claude Code처럼 공유 시스템 프롬프트를 반복 사용하는 코딩 에이전트에서 캐시 히트율이 높아져 응답이 빨라집니다.

로컬 AI 수요가 커지는 타이밍

이번 업데이트가 나온 시점은 공교롭습니다. GitHub에서 30만 스타를 넘긴 OpenClaw 열풍, Claude Code와 ChatGPT Codex 같은 클라우드 코딩 도구의 비용 부담이 겹치면서, 개인 Mac에서 로컬 모델을 돌리려는 수요가 어느 때보다 높아져 있습니다.

다만 현재 프리뷰에서 지원하는 모델은 Alibaba의 Qwen3.5-35B-A3B 하나뿐이고, 32GB 이상의 통합 메모리가 필요합니다. Ollama 측은 지원 아키텍처를 계속 확장할 예정이라고 밝혔습니다. 구체적인 벤치마크 수치와 향후 모델 지원 계획은 원문에서 확인할 수 있습니다.

참고자료: Running local models on Macs gets faster with Ollama’s MLX support – Ars Technica

Like?

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

AI Sparkup

Ollama 0.19, MLX 탑재로 Mac에서 AI 추론 속도 2배 빨라졌다

MLX 전환이 왜 성능 차이를 만드나

NVFP4와 캐시 개선: 품질과 효율 동시에

로컬 AI 수요가 커지는 타이밍

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

이미지 생성 단계 40→4로, Qwen Image 2.0의 압축과 증류 전략

컨텍스트 관리, AI 개발에서 가장 중요한데 아무도 안 가르쳐주는 기술

구글 DeepMind AI Pointer, 마우스로 맥락을 전달하는 새 인터페이스

Claude 구독 요금제 개편, 써드파티 앱 사용은 6월부터 API 정가 적용