AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

로컬 SLM 팁 – 에이전트 툴 콜링에 적합한 소형 언어 모델 5종

에이전트 시스템에서 소형 언어 모델(SLM)을 쓰려면 단순 대화 능력보다 구조화된 도구 호출(tool calling) 신뢰성이 중요하다. 함수 선택, 인자 포맷, 도구 결과 반영을 안정적으로 처리해야 비용·지연 시간·하드웨어 제약이 큰 환경에서도 local-slm 기반 에이전트를 만들 수 있다.

후보 모델 비교

모델크기강점툴 콜링 방식
SmolLM3-3B3B공개 데이터·코드까지 투명한 Hugging Face 소형 모델JSON/XML, Python-style tool
Qwen3-4B-Instruct-25074B다국어, 긴 컨텍스트, Qwen-Agent/MCP 연동Qwen-Agent 네이티브
Phi-3-mini-4k-instruct3.8B온디바이스·상업 사용에 유리한 MIT 라이선스instruction 기반 함수 호출
Gemma-4-E2B-iteffective 2B멀티모달, 낮은 메모리, Apache 2.0네이티브 function calling
Mistral-7B-Instruct-v0.37B널리 지원되는 범용 워크호스전용 tool token

선택 기준

하드웨어가 가장 빡빡할 때

Gemma-4-E2B-it 또는 SmolLM3-3B가 유리하다. 특히 Gemma E2B 계열은 양자화 시 1.5GB 이하 메모리에서도 실행 가능한 설계를 목표로 한다.

긴 컨텍스트와 다국어가 필요할 때

Qwen3-4B-Instruct-2507이 강하다. Qwen-Agent가 템플릿과 파서를 감싸 주므로 직접 도구 호출 포맷을 다루는 부담도 줄어든다.

라이선스가 중요할 때

Phi-3-mini와 Gemma 4 E2B는 permissive license 선택지로 매력적이다. 상업 배포 전에는 각 모델 카드의 최신 라이선스를 반드시 확인해야 한다.

생태계 호환성이 중요할 때

Mistral-7B-Instruct-v0.3은 Ollama, vLLM, Transformers 등에서 폭넓게 지원된다. 7B라 가장 크지만 범용 instruction 품질과 도구 호출 지원의 균형이 좋다.

실전 체크리스트

  • 모델 카드의 chat template과 tool calling 예제를 확인한다.
  • JSON schema를 엄격히 요구하는 도구에는 constrained decoding 또는 parser retry를 붙인다.
  • 1B~4B 모델은 인자 타입을 틀릴 수 있으므로 검증 레이어를 둔다.
  • 로컬 추론 서버가 tool call token을 stop token으로 잘못 처리하지 않는지 테스트한다.
  • 같은 프롬프트를 20~50회 반복해 포맷 안정성을 측정한다.

관련 문서

  • local-slm — 로컬 소형 언어 모델 개요
  • needle — 26M 파라미터 함수 호출 특화 SLM
  • qwen — Qwen 모델 시리즈
  • gemma — Google 경량 오픈 모델 계열

참고 자료



AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)