AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

로컬 SLM 팁 – Hugging Face에서 고를 만한 소형 언어 모델 8종

소형 언어 모델(SLM)을 고를 때 가장 흔한 실수는 “작을수록 좋다” 또는 “벤치마크가 가장 높은 모델이 답이다”라고 보는 것이다. 실제 선택 기준은 하드웨어, 언어, tool calling, 라이선스, 멀티모달 요구에 따라 달라진다.

모델별 포지션

모델규모강점추천 용도
Qwen3.5-4B4B급다국어, 지시 수행, 장문 처리범용 로컬 어시스턴트
Phi-4-mini-instruct3.8B영어 Q&A, 추론형 작업가벼운 지식 질의
Gemma 3 4B IT4B코드·수학 성능개발 보조, 계산형 작업
Gemma 3n E4B4B급온디바이스·멀티모달 지향모바일·엣지 앱
Llama 3.2 3B Instruct3B커뮤니티, 통합 생태계tool calling, 구조화 출력
SmolLM3-3B3B공개 학습 설정, 재현성연구·교육·오픈소스
DeepSeek-R1-Distill-Qwen-1.5B1.5B작은 reasoning 실험초경량 추론 파이프라인
Qwen3-0.6B0.6B극저사양 실행자동완성, 분류, 프로토타입

선택 기준

1. 노트북 로컬 어시스턴트

24GB RAM급 MacBook이나 보급형 GPU라면 3B~4B instruct 모델이 가장 현실적이다. Qwen, Gemma, Llama 계열이 무난하다. 0.6B~1.5B 모델은 빠르지만 긴 대화나 복잡한 instruction following에는 한계가 빠르게 드러난다.

2. 에이전트 툴 콜링

툴 콜링은 모델 크기보다 chat template, structured output 안정성, 커뮤니티 fine-tune이 중요하다. Llama 3.2 3B는 생태계가 넓고, Qwen 계열은 다국어와 지시 수행이 강하다. 실제 에이전트에는 smallcode처럼 작은 모델의 툴 호출 실패를 보정하는 하네스가 필요하다.

3. 연구와 재현성

SmolLM3는 훈련 데이터 혼합과 평가 코드 공개가 장점이다. 모델 성능보다 “무엇으로 학습됐고 어떻게 평가됐는가”가 중요한 연구·교육 환경에 잘 맞는다.

4. 온디바이스·모바일

Gemma 3n E4B처럼 처음부터 온디바이스 실행을 목표로 설계된 모델을 우선 검토한다. 단순히 작은 dense 모델을 양자화하는 것보다 메모리 접근 패턴과 멀티모달 지원이 중요하다.

실행 시 주의점

  • 모델별 chat template를 반드시 사용한다.
  • CPU 실행은 가능하지만 체감 품질은 latency에 크게 좌우된다.
  • bfloat16, 4bit GGUF, W4A4 등 양자화 형식에 따라 메모리와 속도가 크게 달라진다.
  • 라이선스 수락이 필요한 모델은 Hugging Face에서 먼저 접근 권한을 확인한다.
  • 한국어 작업은 영어 벤치마크만 보지 말고 직접 샘플 질의를 돌려본다.

관련 문서

참고 자료



AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)