local-slm은 단순히 “성능이 낮지만 싸고 작은 모델”이 아니다. 에이전트 워크플로에서는 오히려 작은 모델이 더 빠르고, 더 예측 가능하며, 더 쉽게 파인튜닝되는 실행 단위가 될 수 있다. 핵심은 하나의 대형 모델이 모든 일을 하게 만드는 대신, 좁은 하위 작업을 여러 SLM에 나누는 것이다.
챗봇 시대와 에이전트 시대의 차이
범용 챗봇은 넓은 지식, 긴 대화, 창의적 응답이 중요하다. 그래서 대형 모델이 유리하다. 하지만 에이전트는 대부분 다음 같은 짧고 반복적인 단계를 많이 수행한다.
- 사용자 요청에서 의도와 파라미터 추출
- JSON 스키마 검증
- 어떤 도구를 호출할지 선택
- 검색 결과를 라벨링하거나 필터링
- 응답 형식을 내부 계약에 맞게 정리
이런 작업에는 문학적 표현력보다 지연 시간, 비용, 형식 준수, 반복 안정성이 더 중요하다.
SLM이 유리한 지점
| 장점 | 에이전트에서의 의미 |
|---|---|
| 낮은 지연 시간 | 여러 단계 루프의 총 대기 시간을 줄인다 |
| 낮은 비용 | 대량의 내부 호출을 감당하기 쉽다 |
| 작은 VRAM 요구량 | 같은 GPU에 여러 모델 인스턴스를 올릴 수 있다 |
| 좁은 파인튜닝 | SQL 생성, JSON 검증, 분류 같은 단일 업무에 맞추기 쉽다 |
| 형식 안정성 | 범용 대화 능력보다 계약 준수를 우선하도록 학습할 수 있다 |
에이전트가 다섯 단계를 거치고 각 단계가 대형 모델 호출이면 사용자는 전체 지연 시간을 그대로 체감한다. 일부 단계를 SLM으로 바꾸면 품질을 유지하면서 루프 전체가 빨라질 수 있다.
추천 아키텍처
실무에서는 모델을 역할별로 나누는 방식이 현실적이다.
| 역할 | 추천 모델 계층 |
|---|---|
| 고수준 계획, 복잡한 추론 | 프론티어 LLM |
| 도구 선택, 인자 추출 | 툴 콜링 특화 SLM |
| 정책·스키마 검증 | 파인튜닝된 SLM 또는 분류 모델 |
| 대량 요약·라벨링 | 로컬 SLM |
| 최종 사용자 응답 | 품질 요구에 따라 LLM 또는 SLM |
이 구조는 “모델 하나로 모든 것을 해결”하는 방식보다 운영상 유리하다. 실패한 하위 작업을 교체하거나 재학습하기 쉽고, 비용이 큰 모델 호출을 정말 필요한 단계에만 쓸 수 있다.
주의할 점
SLM은 좁은 작업에 강하지만, 모호한 요청 해석이나 긴 맥락 추론에서는 여전히 대형 모델보다 약하다. 따라서 SLM을 무작정 대체재로 쓰기보다, 입력·출력 계약이 명확한 곳에 배치해야 한다.
좋은 기준은 다음이다.
- 정답 형식이 명확한가?
- 실패를 자동 검증할 수 있는가?
- 같은 종류의 요청이 반복되는가?
- 파인튜닝 또는 예시 데이터 확보가 가능한가?
네 가지에 가깝다면 SLM 후보로 볼 만하다. 아니라면 대형 모델 또는 하이브리드 라우팅이 더 안전하다.
관련 문서
- local-slm — 로컬 소형 언어 모델 개요
- local-slm-tips-tool-calling-models — 에이전트 툴 콜링에 적합한 소형 언어 모델 5종
- needle — 초소형 디바이스에서 함수 호출을 수행하는 26M 파라미터 SLM
- llm-fine-tuning — SFT·PEFT·RAG 비교 포함 실전 가이드
참고 자료
- The Secret Benefits of Small Language Models — Investing In AI (2026-05-17)