에이전트 시스템에서 소형 언어 모델(SLM)을 쓰려면 단순 대화 능력보다 구조화된 도구 호출(tool calling) 신뢰성이 중요하다. 함수 선택, 인자 포맷, 도구 결과 반영을 안정적으로 처리해야 비용·지연 시간·하드웨어 제약이 큰 환경에서도 local-slm 기반 에이전트를 만들 수 있다.
후보 모델 비교
| 모델 | 크기 | 강점 | 툴 콜링 방식 |
|---|---|---|---|
| SmolLM3-3B | 3B | 공개 데이터·코드까지 투명한 Hugging Face 소형 모델 | JSON/XML, Python-style tool |
| Qwen3-4B-Instruct-2507 | 4B | 다국어, 긴 컨텍스트, Qwen-Agent/MCP 연동 | Qwen-Agent 네이티브 |
| Phi-3-mini-4k-instruct | 3.8B | 온디바이스·상업 사용에 유리한 MIT 라이선스 | instruction 기반 함수 호출 |
| Gemma-4-E2B-it | effective 2B | 멀티모달, 낮은 메모리, Apache 2.0 | 네이티브 function calling |
| Mistral-7B-Instruct-v0.3 | 7B | 널리 지원되는 범용 워크호스 | 전용 tool token |
선택 기준
하드웨어가 가장 빡빡할 때
Gemma-4-E2B-it 또는 SmolLM3-3B가 유리하다. 특히 Gemma E2B 계열은 양자화 시 1.5GB 이하 메모리에서도 실행 가능한 설계를 목표로 한다.
긴 컨텍스트와 다국어가 필요할 때
Qwen3-4B-Instruct-2507이 강하다. Qwen-Agent가 템플릿과 파서를 감싸 주므로 직접 도구 호출 포맷을 다루는 부담도 줄어든다.
라이선스가 중요할 때
Phi-3-mini와 Gemma 4 E2B는 permissive license 선택지로 매력적이다. 상업 배포 전에는 각 모델 카드의 최신 라이선스를 반드시 확인해야 한다.
생태계 호환성이 중요할 때
Mistral-7B-Instruct-v0.3은 Ollama, vLLM, Transformers 등에서 폭넓게 지원된다. 7B라 가장 크지만 범용 instruction 품질과 도구 호출 지원의 균형이 좋다.
실전 체크리스트
- 모델 카드의 chat template과 tool calling 예제를 확인한다.
- JSON schema를 엄격히 요구하는 도구에는 constrained decoding 또는 parser retry를 붙인다.
- 1B~4B 모델은 인자 타입을 틀릴 수 있으므로 검증 레이어를 둔다.
- 로컬 추론 서버가 tool call token을 stop token으로 잘못 처리하지 않는지 테스트한다.
- 같은 프롬프트를 20~50회 반복해 포맷 안정성을 측정한다.
관련 문서
- local-slm — 로컬 소형 언어 모델 개요
- needle — 26M 파라미터 함수 호출 특화 SLM
- qwen — Qwen 모델 시리즈
- gemma — Google 경량 오픈 모델 계열
참고 자료
- 5 Small Language Models for Agentic Tool Calling — KDnuggets (2026-05-14)