AI 업계에서 주목받고 있는 ‘코그니티브 코어(Cognitive Core)’ 개념은 대형 모델 대신 작은 모델로 추론 능력을 구현해 개인 디바이스에서 AI를 활용하려는 새로운 접근법입니다.
최근 몇 달간 AI 업계에서 흥미로운 트렌드가 나타나고 있습니다. 바로 ‘코그니티브 코어(Cognitive Core)’라는 개념입니다. 이는 가능한 한 큰 모델을 만드는 대신, 작은 모델로도 강력한 추론 능력을 구현할 수 있다는 아이디어에서 출발합니다.

작은 모델의 놀라운 효과성
일반적으로 더 많은 파라미터를 가진 큰 모델이 더 우수한 성능을 보입니다. Claude Opus 4가 Claude Sonnet 4보다 모든 면에서 뛰어나고, 더 정확한 답변을 제공하며 복잡한 문제를 더 우아하게 해결하는 것이 그 예입니다.
하지만 지난 몇 년간 AI 연구에서 발견된 놀라운 사실은 작은 모델들이 예상보다 훨씬 효과적이라는 점입니다. 모델 크기를 절반으로 줄인다고 해서 지능이 절반으로 떨어지는 것이 아니라, 적절히 최적화하면 90% 수준의 성능을 유지할 수 있습니다.
실제 사례를 보면 더욱 놀랍습니다. 원래 GPT-3는 약 1,750억 개의 파라미터를 가지고 있었고, 인기 있는 MMLU 벤치마크에서 44% 정도의 성과를 보였습니다. 반면 오늘날의 Gemma 3B 모델은 GPT-3보다 58배나 작지만, 같은 벤치마크에서 65%의 성과를 달성했습니다.
모델 증류: 작은 모델이 강해지는 비밀
이런 놀라운 효율성의 비밀은 ‘모델 증류(Model Distillation)’라는 기술에 있습니다. 대형 모델을 처음부터 훈련할 때는 다음 토큰만을 예측하는 제한적인 신호로 학습해야 합니다. 예를 들어 “1 더하기 1은 5이다”라는 잘못된 문장에서 모델이 “5”로 답하든 “소시지”로 답하든 똑같이 처벌받습니다.
하지만 증류 과정에서는 대형 모델의 전체 확률 분포를 활용합니다. 작은 모델은 단순한 정답이 아닌, 각 가능한 답변에 대한 확률 정보를 학습할 수 있습니다. 이는 훨씬 풍부한 정보를 제공하며, 작은 모델이 더 효율적으로 학습할 수 있게 합니다.

코그니티브 코어의 핵심 아이디어
코그니티브 코어의 핵심은 추론 능력과 사실 저장을 분리하는 것입니다. 현재 우리는 강력한 LLM을 개인 디바이스에서 실행하기 어렵습니다. 고성능 그래픽 카드를 여러 대 사용해야 최신 모델에 가까운 성능을 얻을 수 있고, 일반적인 스마트폰이나 노트북에서는 유용한 수준의 AI를 구동하기 힘듭니다.
그 이유는 단순합니다. 스마트폰의 GPU 메모리로는 Claude Sonnet 4 같은 모델의 모든 파라미터를 담을 수 없기 때문입니다. 추론을 위해 가중치를 GPU로 계속 이동시켜야 하므로, 각 토큰마다 30초씩 기다려야 할 수도 있습니다.
그런데 대형 모델이 작은 모델보다 뛰어난 이유 중 하나는 더 많은 세상의 사실을 기억한다는 점입니다. 언어 모델의 가중치는 전체 훈련 데이터를 압축해서 저장한 것이므로, 더 많은 파라미터를 가질수록 더 많은 정보를 저장할 수 있습니다.
하지만 특정 사실이 필요하지 않은 추론 작업에서는 모든 가중치를 활용하는 것이 비효율적입니다. “내 이메일함에서 가장 중요한 메일은 무엇인가?”라는 질문에 답할 때, 왜 에반게리온의 줄거리나 영국 왕들의 순서를 저장한 가중치까지 계산에 포함해야 할까요? 필요한 배경 지식은 검색을 통해 간단히 요약해서 제공하는 것이 훨씬 빠르고 저렴합니다.
개인 디바이스 AI의 새로운 가능성
스마트폰에서 발열이나 배터리 소모 없이 실행할 수 있는 언어 모델을 상상해보세요. 이런 모델은 사실상 무료로 항상 실행될 수 있어, 주제를 연구하고, 이미지와 알림을 정리하고 요약하는 등의 작업을 지속적으로 수행할 수 있습니다. 이는 완전히 새로운 엔지니어링 기본 요소가 되어, 아직 아무도 생각해보지 못한 새로운 기능과 가능성을 열어줄 것입니다.

코그니티브 코어의 한계와 우려사항
하지만 코그니티브 코어가 성공하지 못할 이유들도 있습니다. 가장 큰 우려는 추론 능력이 많은 배경 지식을 필요로 할 수 있다는 점입니다. Claude Sonnet 4만큼 뛰어난 추론 능력을 가진 모델을 만들려면, Claude Sonnet 4가 아는 모든 잡학 지식이 필요할 수도 있습니다. “추론 능력”이 수많은 개별 모델 가중치 간의 복잡한 관계에서 나오는 것일 수 있기 때문입니다.
인간도 구체적인 예시에서 추론 기법을 배우고, 여러 번 실제로 적용해본 후에야 일반적으로 응용할 수 있는 능력을 개발합니다. 만약 이러한 예시들이 필수적이라면, 모든 지식을 제거할 때 추론 기법을 사용하는 능력도 함께 사라질 수 있습니다.
또한 추론 능력 자체가 많은 파라미터를 필요로 할 수도 있습니다. Anthropic의 AI 해석가능성 연구에 따르면, 큰 모델은 작은 모델보다 더 나은 추상화를 가지고 있습니다. 작은 모델에서는 개에 대한 질문을 할 때 “개” 패턴의 뉴런만 활성화되지만, 큰 모델에서는 “동물”이나 “애완동물” 같은 더 추상적인 개념들도 함께 활성화됩니다.
미래를 향한 전망
결국 가장 유용한 모델이 일반 지식이 거의 없는 순수한 추론 엔진이 될 가능성은 낮아 보입니다. “순수한” 추론 능력을 추론의 대상이 되는 구체적 사실들의 네트워크에서 분리하기는 어려울 것입니다.
그럼에도 작은 모델들이 얼마나 강해질 수 있는지 지켜보는 것은 흥미로운 일입니다. AI가 성공하는 모든 가능한 미래 중에서, 대형 모델이 지배하고 소수의 거대 AI 연구소에 권력이 집중되는 시나리오는 가장 암울한 것 중 하나입니다. 작은 모델들이 같은 속도로 (또는 더 빠르게) 계속 발전하여 사람들이 더 저렴하게 다양한 것들을 구축할 수 있다면 훨씬 더 나을 것입니다.
AI의 환경적 영향을 우려하는 사람들에게도 이는 좋은 소식이 될 것입니다. 코그니티브 코어는 AI의 민주화와 지속가능성이라는 두 가지 중요한 목표를 동시에 달성할 수 있는 가능성을 제시합니다.
참고자료:
Comments