로컬 SLM 팁 – Hugging Face에서 고를 만한 소형 언어 모델 8종

모델별 포지션
선택 기준
1. 노트북 로컬 어시스턴트
2. 에이전트 툴 콜링
3. 연구와 재현성
4. 온디바이스·모바일
실행 시 주의점
관련 문서
참고 자료

소형 언어 모델(SLM)을 고를 때 가장 흔한 실수는 “작을수록 좋다” 또는 “벤치마크가 가장 높은 모델이 답이다”라고 보는 것이다. 실제 선택 기준은 하드웨어, 언어, tool calling, 라이선스, 멀티모달 요구에 따라 달라진다.

모델별 포지션

모델	규모	강점	추천 용도
Qwen3.5-4B	4B급	다국어, 지시 수행, 장문 처리	범용 로컬 어시스턴트
Phi-4-mini-instruct	3.8B	영어 Q&A, 추론형 작업	가벼운 지식 질의
Gemma 3 4B IT	4B	코드·수학 성능	개발 보조, 계산형 작업
Gemma 3n E4B	4B급	온디바이스·멀티모달 지향	모바일·엣지 앱
Llama 3.2 3B Instruct	3B	커뮤니티, 통합 생태계	tool calling, 구조화 출력
SmolLM3-3B	3B	공개 학습 설정, 재현성	연구·교육·오픈소스
DeepSeek-R1-Distill-Qwen-1.5B	1.5B	작은 reasoning 실험	초경량 추론 파이프라인
Qwen3-0.6B	0.6B	극저사양 실행	자동완성, 분류, 프로토타입

선택 기준

1. 노트북 로컬 어시스턴트

24GB RAM급 MacBook이나 보급형 GPU라면 3B~4B instruct 모델이 가장 현실적이다. Qwen, Gemma, Llama 계열이 무난하다. 0.6B~1.5B 모델은 빠르지만 긴 대화나 복잡한 instruction following에는 한계가 빠르게 드러난다.

2. 에이전트 툴 콜링

툴 콜링은 모델 크기보다 chat template, structured output 안정성, 커뮤니티 fine-tune이 중요하다. Llama 3.2 3B는 생태계가 넓고, Qwen 계열은 다국어와 지시 수행이 강하다. 실제 에이전트에는 smallcode처럼 작은 모델의 툴 호출 실패를 보정하는 하네스가 필요하다.

3. 연구와 재현성

SmolLM3는 훈련 데이터 혼합과 평가 코드 공개가 장점이다. 모델 성능보다 “무엇으로 학습됐고 어떻게 평가됐는가”가 중요한 연구·교육 환경에 잘 맞는다.

4. 온디바이스·모바일

Gemma 3n E4B처럼 처음부터 온디바이스 실행을 목표로 설계된 모델을 우선 검토한다. 단순히 작은 dense 모델을 양자화하는 것보다 메모리 접근 패턴과 멀티모달 지원이 중요하다.

실행 시 주의점

모델별 chat template를 반드시 사용한다.
CPU 실행은 가능하지만 체감 품질은 latency에 크게 좌우된다.
bfloat16, 4bit GGUF, W4A4 등 양자화 형식에 따라 메모리와 속도가 크게 달라진다.
라이선스 수락이 필요한 모델은 Hugging Face에서 먼저 접근 권한을 확인한다.
한국어 작업은 영어 벤치마크만 보지 말고 직접 샘플 질의를 돌려본다.

참고 자료

Best Small Language Models on Hugging Face Right Now! — KDnuggets (2026-05)

Like?

AI Sparkup