소형 언어 모델(SLM)을 고를 때 가장 흔한 실수는 “작을수록 좋다” 또는 “벤치마크가 가장 높은 모델이 답이다”라고 보는 것이다. 실제 선택 기준은 하드웨어, 언어, tool calling, 라이선스, 멀티모달 요구에 따라 달라진다.
모델별 포지션
| 모델 | 규모 | 강점 | 추천 용도 |
|---|---|---|---|
| Qwen3.5-4B | 4B급 | 다국어, 지시 수행, 장문 처리 | 범용 로컬 어시스턴트 |
| Phi-4-mini-instruct | 3.8B | 영어 Q&A, 추론형 작업 | 가벼운 지식 질의 |
| Gemma 3 4B IT | 4B | 코드·수학 성능 | 개발 보조, 계산형 작업 |
| Gemma 3n E4B | 4B급 | 온디바이스·멀티모달 지향 | 모바일·엣지 앱 |
| Llama 3.2 3B Instruct | 3B | 커뮤니티, 통합 생태계 | tool calling, 구조화 출력 |
| SmolLM3-3B | 3B | 공개 학습 설정, 재현성 | 연구·교육·오픈소스 |
| DeepSeek-R1-Distill-Qwen-1.5B | 1.5B | 작은 reasoning 실험 | 초경량 추론 파이프라인 |
| Qwen3-0.6B | 0.6B | 극저사양 실행 | 자동완성, 분류, 프로토타입 |
선택 기준
1. 노트북 로컬 어시스턴트
24GB RAM급 MacBook이나 보급형 GPU라면 3B~4B instruct 모델이 가장 현실적이다. Qwen, Gemma, Llama 계열이 무난하다. 0.6B~1.5B 모델은 빠르지만 긴 대화나 복잡한 instruction following에는 한계가 빠르게 드러난다.
2. 에이전트 툴 콜링
툴 콜링은 모델 크기보다 chat template, structured output 안정성, 커뮤니티 fine-tune이 중요하다. Llama 3.2 3B는 생태계가 넓고, Qwen 계열은 다국어와 지시 수행이 강하다. 실제 에이전트에는 smallcode처럼 작은 모델의 툴 호출 실패를 보정하는 하네스가 필요하다.
3. 연구와 재현성
SmolLM3는 훈련 데이터 혼합과 평가 코드 공개가 장점이다. 모델 성능보다 “무엇으로 학습됐고 어떻게 평가됐는가”가 중요한 연구·교육 환경에 잘 맞는다.
4. 온디바이스·모바일
Gemma 3n E4B처럼 처음부터 온디바이스 실행을 목표로 설계된 모델을 우선 검토한다. 단순히 작은 dense 모델을 양자화하는 것보다 메모리 접근 패턴과 멀티모달 지원이 중요하다.
실행 시 주의점
- 모델별 chat template를 반드시 사용한다.
- CPU 실행은 가능하지만 체감 품질은 latency에 크게 좌우된다.
bfloat16, 4bit GGUF, W4A4 등 양자화 형식에 따라 메모리와 속도가 크게 달라진다.- 라이선스 수락이 필요한 모델은 Hugging Face에서 먼저 접근 권한을 확인한다.
- 한국어 작업은 영어 벤치마크만 보지 말고 직접 샘플 질의를 돌려본다.
관련 문서
- local-slm — 소형 언어 모델 개요
- local-slm-tips-tool-calling-models — 에이전트 툴 콜링에 적합한 소형 모델
- local-slm-tips-m4-24gb — M4 24GB MacBook 로컬 LLM 운용
- whichllm — 내 하드웨어에 맞는 로컬 LLM 추천 CLI
참고 자료
- Best Small Language Models on Hugging Face Right Now! — KDnuggets (2026-05)