로컬 SLM 팁 – 에이전트 툴 콜링에 적합한 소형 언어 모델 5종

후보 모델 비교
선택 기준
하드웨어가 가장 빡빡할 때
긴 컨텍스트와 다국어가 필요할 때
라이선스가 중요할 때
생태계 호환성이 중요할 때
실전 체크리스트
관련 문서
참고 자료

에이전트 시스템에서 소형 언어 모델(SLM)을 쓰려면 단순 대화 능력보다 구조화된 도구 호출(tool calling) 신뢰성이 중요하다. 함수 선택, 인자 포맷, 도구 결과 반영을 안정적으로 처리해야 비용·지연 시간·하드웨어 제약이 큰 환경에서도 local-slm 기반 에이전트를 만들 수 있다.

후보 모델 비교

모델	크기	강점	툴 콜링 방식
SmolLM3-3B	3B	공개 데이터·코드까지 투명한 Hugging Face 소형 모델	JSON/XML, Python-style tool
Qwen3-4B-Instruct-2507	4B	다국어, 긴 컨텍스트, Qwen-Agent/MCP 연동	Qwen-Agent 네이티브
Phi-3-mini-4k-instruct	3.8B	온디바이스·상업 사용에 유리한 MIT 라이선스	instruction 기반 함수 호출
Gemma-4-E2B-it	effective 2B	멀티모달, 낮은 메모리, Apache 2.0	네이티브 function calling
Mistral-7B-Instruct-v0.3	7B	널리 지원되는 범용 워크호스	전용 tool token

선택 기준

하드웨어가 가장 빡빡할 때

Gemma-4-E2B-it 또는 SmolLM3-3B가 유리하다. 특히 Gemma E2B 계열은 양자화 시 1.5GB 이하 메모리에서도 실행 가능한 설계를 목표로 한다.

긴 컨텍스트와 다국어가 필요할 때

Qwen3-4B-Instruct-2507이 강하다. Qwen-Agent가 템플릿과 파서를 감싸 주므로 직접 도구 호출 포맷을 다루는 부담도 줄어든다.

라이선스가 중요할 때

Phi-3-mini와 Gemma 4 E2B는 permissive license 선택지로 매력적이다. 상업 배포 전에는 각 모델 카드의 최신 라이선스를 반드시 확인해야 한다.

생태계 호환성이 중요할 때

Mistral-7B-Instruct-v0.3은 Ollama, vLLM, Transformers 등에서 폭넓게 지원된다. 7B라 가장 크지만 범용 instruction 품질과 도구 호출 지원의 균형이 좋다.

실전 체크리스트

모델 카드의 chat template과 tool calling 예제를 확인한다.
JSON schema를 엄격히 요구하는 도구에는 constrained decoding 또는 parser retry를 붙인다.
1B~4B 모델은 인자 타입을 틀릴 수 있으므로 검증 레이어를 둔다.
로컬 추론 서버가 tool call token을 stop token으로 잘못 처리하지 않는지 테스트한다.
같은 프롬프트를 20~50회 반복해 포맷 안정성을 측정한다.

참고 자료

5 Small Language Models for Agentic Tool Calling — KDnuggets (2026-05-14)

Like?

AI Sparkup