소형 언어 모델(Small Language Model, SLM)은 일반 노트북이나 데스크탑에서 실행할 수 있도록 설계된 1B~13B 파라미터 규모의 경량 AI 모델이다. GPT-4 같은 대형 모델보다 능력이 제한적이지만, 프라이버시 보호·API 비용 제거·오프라인 동작이 필요한 시나리오에서 실용적인 대안이다.
왜 로컬 SLM인가
| 이유 | 설명 |
|---|---|
| 비용 없음 | 초기 설치 후 API 요금 없음 |
| 완전한 프라이버시 | 데이터가 내 기기를 벗어나지 않음 |
| 오프라인 동작 | 인터넷 없이도 실행 |
| 완전한 제어 | 모델·설정·동작을 직접 결정 |
| 학습 효과 | AI 동작 원리를 직접 체험 |
주요 SLM 모델
| 모델 | 개발사 | 규모 | 특징 |
|---|---|---|---|
| Phi-3 Mini | Microsoft | 3.8B | 빠른 추론, 낮은 메모리 |
| Mistral 7B | Mistral AI | 7B | 범용, 지시 수행 능력 우수 |
| Llama 3.2 (3B) | Meta | 3B | 균형 잡힌 성능 |
| Gemma 2B | 2B | 경량, 입문자 친화적 |
입문자에게는 Phi-3 Mini 또는 Llama 3.2 (3B) 를 권장한다.
로컬 실행 도구
Ollama
가장 간편한 로컬 LLM 실행 도구. 단일 명령으로 모델을 다운로드하고 실행한다.
# 모델 다운로드
ollama pull phi3
# 대화 모드 실행
ollama run phi3Ollama는 OpenAI 호환 API 서버도 내장하고 있어 LangChain, LangGraph 등과 쉽게 연동된다.
Transformers.js
브라우저·크롬 확장 프로그램에서 SLM을 직접 실행할 때 사용한다. 자세한 내용은 transformersjs 참조.
llmfit
내 PC 사양에 맞는 최적 로컬 LLM을 추천하는 도구. 자세한 내용은 llmfit 참조.
활용 사례
- 민감한 의료·법률·비즈니스 데이터를 처리하는 로컬 AI 어시스턴트
- 인터넷 없는 환경(오지·보안 시설 등)의 AI 도구
- API 비용 없이 대량 텍스트를 처리하는 배치 파이프라인
- AI 에이전트 구축 학습 및 프로토타이핑
관련 문서
- local-slm-tutorial-ai-agents — Ollama + LangChain으로 로컬 AI 에이전트 직접 만들기
- transformersjs — 브라우저에서 SLM을 실행하는 JavaScript 라이브러리
- llmfit — 내 PC 사양에 맞는 로컬 LLM 추천 도구
- mini-coding-agent — 코딩 에이전트 핵심 구성 요소를 직접 구현한 교육용 프레임워크