AI Sparkup

복잡한 AI 세상을 읽는 힘 ⚡

Kimi K2 Thinking: 1조 파라미터로 GPT-5를 제친 오픈소스 모델의 비밀

오픈소스 AI 모델이 OpenAI나 Anthropic 같은 거대 기술 기업의 상용 모델과 진짜 경쟁할 수 있을까요? 중국의 스타트업 Moonshot AI가 그 질문에 답했습니다.

사진 출처: Simon Willison 블로그

알리바바가 투자한 Moonshot AI는 2025년 11월 6일, 1조 파라미터 규모의 추론 전문 AI 모델 ‘Kimi K2 Thinking’을 공개했습니다. 이 모델은 에이전트 추론과 검색 능력을 평가하는 주요 벤치마크에서 GPT-5와 Claude 4.5 Sonnet을 제쳤죠. 특히 주목할 점은 오픈소스로 공개됐다는 것과, API 가격이 GPT-5의 10분의 1 수준이라는 겁니다.

출처: Kimi K2 Thinking 공식 페이지 – Moonshot AI

GPT-5보다 뛰어난 추론 능력

Moonshot AI가 공개한 벤치마크 결과는 충격적입니다. Humanity’s Last Exam(HLE)에서 Kimi K2 Thinking은 44.9%를 기록했는데, 이는 GPT-5의 41.7%, Claude의 32.0%를 모두 앞선 수치죠. HLE는 수학, 물리학, 논리학 등 전문가 수준의 복합 추론 능력을 평가하는 벤치마크입니다.

웹 검색과 브라우징을 포함한 에이전트 작업에서는 격차가 더 벌어졌어요. BrowseComp에서 60.2%를 기록하며 GPT-5(54.9%)와 Claude(24.1%)를 크게 앞섰습니다. 실시간 정보 수집을 평가하는 Seal-0에서도 56.3%로 1위를 차지했고요.

다만 코딩 영역에서는 여전히 개선의 여지가 있습니다. SWE-bench Verified에서 71.3%로 선전했지만, GPT-5(74.9%)와 Claude(77.2%)보다는 낮았어요. LiveCodeBench V6에서는 83.1%로 GPT-5(87.0%)에 근접한 성능을 보였습니다.

놀라운 가성비: 훈련비 460만 달러

Kimi K2 Thinking의 진짜 파괴력은 비용 효율성에 있습니다. CNBC 보도에 따르면, 이 모델의 훈련 비용은 약 460만 달러였어요. 1조 파라미터 규모를 고려하면 믿기 힘든 수치죠.

API 가격은 더 파격적입니다. 캐시 미스 기준으로 입력 토큰 100만 개당 0.60달러, 출력은 2.50달러인데요. 이는 GPT-5의 입력 1.25달러, 출력 10달러와 비교하면 10분의 1 수준입니다. 중국의 다른 모델인 MiniMax-M2(입력 0.30달러, 출력 1.20달러)보다도 경쟁력 있는 가격이에요.

가성비의 비밀은 INT4 양자화에 있습니다. 원래 Kimi K2 모델이 1.03TB였던 반면, Thinking 버전은 594GB로 약 42% 축소됐죠. 양자화 인식 학습(Quantization Aware Training)을 통해 품질 손실 없이 크기를 줄인 겁니다. 덕분에 Mac Studio 2대만으로도 초당 15토큰 속도로 실행할 수 있어요.

오픈소스로 접근성 높이기

Kimi K2 Thinking은 Modified MIT 라이선스로 공개됐습니다. 상업적 사용이 가능하되, 대규모 배포 시에만 출처 표시 의무가 있다는 조건이죠. 완전한 오픈소스는 아니지만, 실용적으로는 충분히 자유로운 라이선스입니다.

모델의 실용성도 인상적이에요. 256,000 토큰의 컨텍스트 창을 지원하고, 사람의 개입 없이 200~300회 연속으로 도구를 호출할 수 있습니다. 각 추론 단계마다 중간 논리 과정이 투명하게 노출되어, 복잡한 다단계 워크플로우에서 디버깅이 쉽죠.

AI 벤치마크 전문 업체 Artificial Analysis는 τ²-Bench Telecom에서 93%라는 최고 점수를 기록했다고 밝혔습니다. 이는 고객 서비스 에이전트처럼 장기간의 도구 사용 시나리오를 평가하는 벤치마크예요.

오픈소스가 상용 모델과 경쟁하는 시대

Kimi K2 Thinking의 등장은 AI 산업에 중요한 전환점을 보여줍니다. 이제 오픈소스 모델이 단순히 “쓸 만한” 수준을 넘어서, 최첨단 상용 모델과 직접 경쟁할 수 있게 됐어요.

물론 한계도 명확합니다. 코딩 성능에서는 여전히 GPT-5나 Claude가 앞서 있고, Modified MIT 라이선스는 완전한 오픈소스와는 거리가 있죠. 또한 벤치마크 점수가 실제 사용 경험과 항상 일치하는 건 아닙니다.

하지만 중요한 건 방향성입니다. 중국의 AI 기업들이 미국의 독점적 시스템과 점점 더 치열하게 경쟁하고 있고, 그 과정에서 오픈소스 생태계가 빠르게 성숙하고 있다는 거예요. 강력한 AI 기술이 소수의 기업에 집중되지 않고, 더 많은 개발자와 연구자에게 접근 가능해지는 미래. Kimi K2 Thinking은 그 가능성을 현실로 보여준 사례입니다.

참고자료:


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다