API 비용, 속도 제한, 개인정보 걱정. 클라우드 AI를 쓰다 보면 어느 순간 이 세 가지가 동시에 걸립니다. 특히 코드 리뷰나 반복 작업처럼 빈도가 높은 용도에서는 더욱 그렇죠.

AI 엔지니어 George Liu가 Google Gemma 4의 26B-A4B 모델을 MacBook Pro(M4 Pro, 48GB)에서 직접 실행하고 Claude Code와 연결한 실전 결과를 공개했습니다. 핵심 수치는 초당 51 토큰. 클라우드 API 없이, 데이터가 기기 밖으로 나가지 않으면서 이 속도를 달성했습니다.
출처: Running Google Gemma 4 Locally With LM Studio’s New Headless CLI & Claude Code – ai.georgeliu.com
MoE 구조가 만든 역설, 26B인데 4B처럼 동작한다
Gemma 4 26B-A4B가 로컬에서 주목받는 이유는 Mixture-of-Experts(MoE) 아키텍처 때문입니다.
이 모델은 128개의 전문가(expert) 레이어로 이뤄져 있지만, 토큰 하나를 처리할 때 실제로 활성화되는 건 8개뿐입니다. 전체 파라미터는 26B지만, 추론 시 실제로 계산에 참여하는 파라미터는 약 3.8B에 불과합니다. 간단히 말하면, 26B 모델을 4B 수준의 메모리와 속도로 돌릴 수 있다는 뜻입니다.
성능은 어떨까요? 벤치마크(MMLU Pro)에서 82.6%를 기록해 같은 계열의 31B 풀 덴스 모델(85.2%)에 근접합니다. 그런데 31B 모델은 모든 파라미터가 매 연산에 참여하기 때문에 메모리를 더 쓰고 속도도 느립니다. Elo 점수 기준으로도 Gemma 4 26B-A4B(~1441)는 400B 이상의 파라미터를 가진 대형 모델들과 경쟁하는 수준입니다.
이것이 MoE가 로컬 추론의 접근 방식을 바꾸는 핵심입니다. 클러스터나 고성능 GPU 없이, 48GB 통합 메모리 맥북 하나로 수백억 파라미터급 모델과 유사한 품질을 낼 수 있습니다.
LM Studio 0.4.0, GUI 없이 서버로 돌아가다
LM Studio는 그동안 로컬 모델 실행을 위한 데스크탑 앱으로 잘 알려져 있었습니다. 버전 0.4.0은 구조를 바꿨습니다. 추론 엔진 llmster를 앱에서 분리해 독립 서버 프로세스로 패키징했고, 이를 제어하는 lms CLI를 함께 내놓았습니다.
실질적으로 달라진 건 이렇습니다. 이제 GUI 없이 터미널만으로 모델을 내려받고, 로드하고, 서버를 띄울 수 있습니다. SSH 세션이나 헤드리스 서버 환경에서도 동작하고, CI/CD 파이프라인에 붙이는 것도 가능해졌습니다.
주요 추가 기능은 다음과 같습니다.
- llmster 데몬 — GUI 없이 백그라운드에서 모델 로딩과 추론을 관리
- 병렬 요청 처리 — 연속 배칭(continuous batching)으로 동시 요청을 단일 연산으로 처리
- Anthropic 호환 엔드포인트 —
POST /v1/messages형식으로 로컬 모델을 Anthropic API처럼 호출 가능 - MCP 통합 — 로컬 Model Context Protocol 지원
이 중 Anthropic 호환 엔드포인트가 흥미로운 가능성을 엽니다.
Claude Code를 로컬 모델로 연결한다는 것
LM Studio 0.4.0이 Anthropic 호환 API를 지원하면서, Claude Code의 요청을 로컬 모델로 우회할 수 있게 됐습니다. George Liu는 이를 위해 셸 함수를 만들어 ANTHROPIC_BASE_URL을 로컬 서버로, 모델명을 Gemma 4로 지정하는 환경 변수들을 설정했습니다. 이렇게 하면 Claude Code가 평소처럼 동작하지만, 모든 요청이 Anthropic 서버 대신 로컬 기기에서 처리됩니다.
트레이드오프는 명확합니다. 51 tok/sec는 Anthropic API 대비 확실히 느리고, 복잡한 멀티스텝 작업에서는 한계가 드러납니다. 반면 코드 리뷰, 단일 파일 수정, 반복적인 탐색 작업에서는 충분히 실용적이라는 게 저자의 평가입니다. 비용은 0이고, 데이터는 기기를 벗어나지 않습니다.
메모리 측면에서 한 가지 더 눈에 띄는 점이 있습니다. 48K 컨텍스트 기준으로 모델이 차지하는 메모리는 약 21GB. Apple Silicon의 통합 메모리 구조 덕분에 CPU와 GPU가 동일한 메모리 풀을 공유해, 데이터를 별도로 복사할 필요 없이 두 연산 유닛이 모델에 직접 접근합니다.
로컬 AI 추론의 현재 위치
이 사례가 흥미로운 건 단순히 “노트북에서 큰 모델이 돌아간다”가 아닙니다. MoE 아키텍처의 성숙, 통합 메모리 기반 하드웨어의 보급, 그리고 CLI 기반 로컬 서버 툴의 등장이 맞물리면서 로컬 AI 추론의 접근 문턱이 실질적으로 낮아지고 있다는 점입니다.
Gemma 4 26B-A4B 외에도 Qwen 3.5 35B-A3B, GLM 4.7 Flash 등 MoE 기반 오픈 모델들이 비슷한 위치에 있습니다. 저자도 용도별 모델 비교 포스트를 예고한 만큼, 어떤 작업에 어떤 모델이 맞는지에 대한 실전 데이터가 더 쌓이고 있습니다.
설정과 벤치마크의 세부 내용은 원문에서 확인하실 수 있습니다.
참고자료:
- Google Gemma 4 Model Card – Google
- LM Studio – lmstudio.ai

답글 남기기