AI 업계에는 오랫동안 “크면 클수록 좋다”는 불문율이 있었습니다. GPT-4, Claude 같은 거대 언어모델(LLM)의 등장 이후, AI 연구진들은 더 많은 파라미터, 더 큰 컴퓨팅 파워, 더 높은 비용을 투입해 성능을 끌어올리는 데 집중해왔죠. 실제로 OpenAI는 최근 5000억 달러 규모의 스타게이트 프로젝트를 발표하며 이런 흐름을 더욱 가속화하고 있습니다.
하지만 이런 패러다임에 균열이 생기고 있습니다. 최근 Hugging Face가 공개한 SmolLM3는 단 30억 개의 파라미터로 훨씬 큰 모델들과 경쟁할 수 있는 성능을 보여주며, “작은 모델이 만드는 큰 변화”의 가능성을 제시하고 있습니다.

SmolLM3의 놀라운 성과
SmolLM3는 겉보기에는 작아 보이지만, 그 안에 담긴 혁신은 결코 작지 않습니다. 11.2조 개의 토큰으로 훈련된 이 모델은 여러 면에서 기존의 상식을 뒤엎고 있습니다.
가장 인상적인 것은 성능입니다. SmolLM3는 같은 3B 클래스의 Llama-3.2-3B와 Qwen2.5-3B를 능가하면서도, 더 큰 4B 모델인 Gemma3와 Qwen3와도 경쟁할 수 있는 수준에 도달했습니다. 지식과 추론 벤치마크에서는 1위 또는 2위를 차지했고, 수학과 코딩 성능도 3B 클래스 내에서 매우 경쟁력 있는 결과를 보여주었습니다.
더욱 주목할 만한 점은 SmolLM3의 다중 기능성입니다. 이 모델은 단순히 작기만 한 것이 아니라, 추론 모드와 일반 모드를 자유롭게 전환할 수 있는 이중 모드를 지원합니다. 사용자는 /think
와 /no_think
플래그를 통해 상황에 따라 빠른 응답이 필요한지, 아니면 깊이 있는 추론이 필요한지 선택할 수 있습니다.
또한 영어, 프랑스어, 스페인어, 독일어, 이탈리아어, 포르투갈어 등 6개 언어를 지원하며, 최대 128k 토큰의 긴 컨텍스트를 처리할 수 있습니다. 이는 많은 대형 모델들도 갖추지 못한 기능들입니다.
에이전틱 AI 시대, 작은 모델이 더 적합한 이유
그런데 왜 갑자기 작은 모델이 주목받고 있을까요? 답은 AI의 사용 패턴 변화에 있습니다.
최근 NVIDIA 연구진이 발표한 논문에 따르면, 실제 AI 에이전트 시스템에서는 언어모델 호출의 40~70%가 잘 튜닝된 소형 모델로 대체 가능하다고 합니다. 왜냐하면 대부분의 에이전틱 작업들이 반복적이고, 범위가 제한적이며, 대화형이 아니기 때문입니다.
예를 들어, API 호출을 생성하거나, 구조화된 입력을 검증하거나, JSON 형식의 출력을 만드는 작업에는 범용 LLM의 모든 기능이 필요하지 않습니다. 오히려 정확성, 속도, 낮은 운영 비용이 더 중요하죠.

이런 맥락에서 보면, 박사 학위를 가진 사람에게 단순한 양식 작성을 맡기는 것과 같은 비효율성이 기존 접근법의 문제였습니다. 소형 모델은 특정 작업에 특화되어 더 안정적이고 예측 가능한 결과를 제공할 수 있습니다.
기술적 혁신의 비밀
SmolLM3의 성공은 단순히 크기를 줄인 것이 아니라, 여러 기술적 혁신의 결과입니다.
아키텍처 최적화: SmolLM3는 Grouped Query Attention(GQA)을 사용해 추론 시 KV 캐시 크기를 크게 줄였습니다. 또한 NoPE(No Position Embedding) 기법을 도입해 4번째마다 회전 위치 임베딩을 제거함으로써 긴 컨텍스트 성능을 향상시켰습니다.
3단계 훈련 전략: 모델은 11.2조 토큰을 사용한 3단계 훈련을 거쳤습니다. 1단계에서는 웹 데이터(85%), 코드(12%), 수학(3%)으로 기초를 다지고, 2단계와 3단계에서는 점진적으로 고품질 수학과 코드 데이터의 비중을 늘려나갔습니다.
중간 훈련과 정렬: 메인 사전훈련 후에는 긴 컨텍스트 확장과 추론 능력 향상을 위한 중간 훈련을 실시했습니다. 그리고 Anchored Preference Optimization(APO)를 사용해 모델을 정렬했습니다.
이 모든 과정이 공개되어 있다는 점도 중요합니다. Hugging Face는 완전한 훈련 레시피, 데이터 믹스처, 그리고 평가 코드까지 모두 공개해 연구 커뮤니티가 이를 재현하고 개선할 수 있도록 했습니다.
경제성과 접근성의 혁명
소형 모델의 가장 큰 장점 중 하나는 경제성입니다. SmolLM3는 일반적인 소비자용 기기에서도 실행할 수 있을 정도로 가볍습니다. 이는 월 20달러의 프리미엄 AI 서비스를 감당하기 어려운 사용자들에게 강력한 AI 기능을 제공할 수 있음을 의미합니다.
또한 로컬에서 실행 가능하다는 것은 데이터 프라이버시와 보안 측면에서도 큰 이점을 제공합니다. 민감한 데이터를 외부 서버로 전송할 필요 없이, 개인용 컴퓨터나 스마트폰에서 직접 AI 기능을 활용할 수 있습니다.
Microsoft의 Phi-4 개발에 참여한 연구자 Harkirat Behl의 말처럼, “큰 모델들은 모든 종류의 데이터로 훈련되어 관련성이 없는 정보들도 저장하고 있습니다. 고품질 데이터 큐레이션에 충분한 노력을 기울이면, 이런 모델들의 성능 수준에 도달하거나 심지어 능가하는 것도 가능합니다.”

모듈형 AI 시스템의 미래
SmolLM3가 제시하는 비전은 단일 거대 모델에 의존하는 것이 아니라, 다양한 소형 모델들이 협력하는 모듈형 시스템입니다. NVIDIA 연구진은 이를 레고 블록에 비유했습니다. 작고 전문화된 조각들이 모여서 복잡한 전체를 구성하는 것이죠.
이런 접근법은 여러 장점을 제공합니다. 첫째, 각 모듈을 독립적으로 업데이트하고 개선할 수 있습니다. 둘째, 디버깅과 문제 해결이 훨씬 쉬워집니다. 셋째, 필요에 따라 시스템을 확장하거나 축소할 수 있는 유연성을 제공합니다.
예를 들어, 간단한 분류 작업에는 가벼운 모델을, 복잡한 추론이 필요한 작업에는 더 정교한 모델을 사용하는 식으로 최적화할 수 있습니다. 이는 전체적인 시스템 효율성을 크게 향상시킬 수 있습니다.
실용적 활용과 도구 지원
SmolLM3는 이론적 성과를 넘어서 실용적인 활용도 충분히 고려했습니다. 모델은 도구 호출(tool calling)을 지원해 에이전틱 AI 시스템에서 바로 활용할 수 있습니다. XML 형식과 Python 함수 형식 모두를 지원해 다양한 개발 환경에 적응할 수 있습니다.
또한 transformers 라이브러리와 vLLM을 통해 쉽게 사용할 수 있으며, 다양한 양자화 버전도 제공됩니다. 이는 개발자들이 자신의 하드웨어 환경에 맞는 최적의 버전을 선택할 수 있게 해줍니다.
AI 패러다임의 전환점
SmolLM3와 같은 소형 모델의 성공은 AI 업계에 중요한 시사점을 제공합니다. 무조건적인 규모 확장보다는 효율성과 특화에 초점을 맞춘 접근법이 더 실용적이고 지속 가능할 수 있다는 것을 보여주고 있습니다.
특히 에이전틱 AI가 기업과 개발자 도구의 핵심이 되어가는 상황에서, 이런 변화는 더욱 의미 있습니다. 시스템의 성공은 확장성, 전문성, 그리고 경제적 운영이 가능한지에 달려 있고, 소형 모델들이 이 모든 요구사항을 더 잘 충족할 수 있기 때문입니다.
SmolLM3는 단순히 하나의 우수한 모델이 아니라, AI 개발 방향성에 대한 새로운 관점을 제시하는 이정표입니다. 크기가 아닌 능력과 효율성이 진정한 혁신의 척도가 되는 시대가 열리고 있는 것입니다. 앞으로 이런 흐름이 어떻게 발전해 나갈지, 그리고 우리의 AI 활용 방식을 어떻게 바꿔놓을지 지켜보는 것이 흥미로울 것 같습니다.
참고자료:
Comments