AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

Kimi K2.7 Code 출시, 코딩 에이전트 비용 최대 12배 절감하는 오픈 모델

GPT-5.5 출력 토큰 1백만 개에 30달러를 쓸 것인가, Kimi K2.7 Code로 같은 돈에 7.5배 더 많이 돌릴 것인가. 코딩 에이전트를 반복적으로 실행하는 환경에서는 이 질문이 점점 현실적인 선택지가 되고 있습니다.

사진 출처: Kimi AI

중국 AI 스타트업 Moonshot AI가 코딩 특화 오픈웨이트 모델 Kimi K2.7 Code를 공개했습니다. 전작 K2.6를 기반으로 장기간 복잡한 소프트웨어 엔지니어링 작업을 처리하는 능력을 강화했으며, 모델 가중치는 HuggingFace에서 무료로 내려받을 수 있습니다.

출처: Kimi K2.7 Code Model Card – Moonshot AI

1조 파라미터, 실제로 쓰는 건 32B

K2.7 Code는 Mixture-of-Experts(MoE) 아키텍처를 씁니다. 총 파라미터는 1조 개지만, 토큰 하나를 처리할 때 실제로 활성화되는 파라미터는 32B에 불과합니다. 384개의 전문가(expert) 중 토큰당 8개만 선택해 작동하는 구조입니다. 덕분에 모델 크기에 비해 추론 비용이 훨씬 낮아집니다.

컨텍스트 길이는 256K 토큰이며, 이미지와 영상도 처리할 수 있는 멀티모달 모델입니다. 아키텍처 자체는 K2.5, K2.6과 동일해서 기존 배포 설정을 그대로 재사용할 수 있습니다.

한 가지 눈에 띄는 개선점은 추론 토큰 효율입니다. K2.7 Code는 K2.6 대비 추론 토큰 사용량을 약 30% 줄였습니다. 추론 모델들이 종종 문제 해결에 필요한 것보다 훨씬 길게 생각하는 경향이 있는데, 이를 개선했다는 의미입니다. 여기에 ‘추론 내용 보존(preserve_thinking)’ 기능도 기본 활성화되어 있어, 대화가 여러 턴을 거치더라도 이전 추론 내용이 유지됩니다. 에이전트 방식으로 반복 호출할 때 일관성을 유지하는 데 유리합니다.

벤치마크: 전작보다 낫지만, 최상위권과는 격차

코딩 벤치마크에서 전작 대비 개선폭은 뚜렷합니다. Moonshot의 자체 기준인 Kimi Code Bench v2에서 50.9에서 62.0으로, Program Bench에서는 48.3에서 53.6으로 올랐습니다. 에이전트 벤치마크인 MCP Atlas(69.4→76.0)와 MCPMark Verified(72.8→81.1)도 함께 개선됐습니다.

다만 GPT-5.5, Claude Opus 4.8과 비교하면 대부분의 코딩 벤치마크에서 뒤처집니다. Program Bench 기준으로 GPT-5.5가 69.1, Opus 4.8이 63.8인 데 비해 K2.7 Code는 53.6입니다.

한 가지 예외는 MCPMark Verified입니다. Notion, GitHub, 파일시스템, Postgres, Playwright 등 실제 소프트웨어 환경에서 AI 에이전트의 도구 사용 능력을 평가하는 이 벤치마크에서 K2.7 Code는 81.1로 Opus 4.8(76.4)을 앞섰습니다. GPT-5.5(92.9)에는 미치지 못하지만, 현실적인 도구 호출 시나리오에서 경쟁력이 있다는 신호입니다.

가격 차이, 최대 12배

성능 격차보다 더 주목할 부분은 가격입니다.

모델입력 (백만 토큰)출력 (백만 토큰)
Kimi K2.7 Code$0.95$4.00
Claude Opus 4.8$5.00$25.00
GPT-5.5$5.00$30.00
Claude Fable 5$10.00$50.00

출력 토큰 기준으로 GPT-5.5의 7.5배, Claude Fable 5의 12.5배 저렴합니다. 캐시 히트 시 입력 가격은 백만 토큰당 0.19달러까지 낮아집니다.

라이선스는 수정된 MIT 라이선스입니다. 월간 활성 사용자 1억 명 또는 월 매출 2,000만 달러를 넘는 대형 서비스에서 이 모델이나 파생 모델을 상업적으로 사용할 경우, UI에 “Kimi K2.7 Code”를 눈에 띄게 표시해야 합니다.

성능과 비용 사이의 선택

K2.7 Code는 GPT-5.5나 Opus 4.8을 대체하는 모델은 아닙니다. 순수 코딩 능력에서는 아직 격차가 있습니다. 그러나 코딩 에이전트를 수십, 수백 번 반복 실행하는 파이프라인 환경에서는 이야기가 달라집니다. 같은 예산으로 훨씬 많은 실행 횟수를 확보할 수 있고, 그 자체가 실용적인 경쟁력이 됩니다.

Cursor는 이미 Kimi K2.5를 기반으로 자체 코딩 모델을 출시한 바 있습니다. 오픈 모델의 비용 구조를 활용해 상업 제품을 만드는 패턴이 실제로 작동하고 있다는 방증입니다. 모델의 절대 성능뿐 아니라 단위 비용당 성능이 중요한 경쟁 지표가 되는 흐름, Kimi K2.7 Code는 그 흐름 위에 있습니다.

참고자료: Open model Kimi K2.7 Code undercuts GPT-5.5 and Claude by up to 12x on price per token – The Decoder


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다