AI에게 복잡한 작업을 맡기면 어떻게 될까요? 하나씩 순서대로 처리하느라 시간이 오래 걸리거나, 중간에 막혀서 포기하는 경우가 많습니다. 만약 AI가 스스로 100개의 분신을 만들어서 동시에 일을 나눠 처리한다면 어떨까요?
중국 Moonshot AI가 공개한 Kimi K2.5는 바로 이런 일을 합니다. ‘Agent Swarm’이라는 새로운 시스템을 통해 최대 100개의 AI 에이전트를 스스로 만들고 조율하면서, 복잡한 작업을 기존 대비 최대 4.5배 빠르게 끝낼 수 있습니다. 오픈소스 AI 모델 중에서는 처음으로 시각 정보 이해, 코딩, 대규모 병렬 처리를 하나로 통합한 ‘진짜 에이전트 AI’라는 평가를 받고 있습니다.

Moonshot AI가 발표한 Kimi K2.5는 약 15조 개의 텍스트와 시각 데이터로 추가 학습한 멀티모달 AI 모델입니다. 기존 Kimi K2 모델을 기반으로 하되, 코딩·시각 이해·에이전트 조율 능력을 대폭 강화했죠. 특히 Agent Swarm 기능은 사용자가 미리 설정해두지 않아도 AI가 알아서 작업을 쪼개고, 각 서브 에이전트에게 역할을 부여해서 병렬로 실행합니다.
출처: Kimi K2.5: Visual Agentic Intelligence | Technical Report – Moonshot AI
100개 에이전트가 한 팀으로 움직인다
Agent Swarm의 핵심은 ‘오케스트레이터’라는 조율 에이전트입니다. 이 에이전트는 주어진 작업을 분석해서 병렬로 처리할 수 있는 하위 작업들로 쪼갭니다. 그런 다음 각 작업마다 전문화된 서브 에이전트를 동적으로 생성하죠. 예를 들어 “100개 분야에서 인기 있는 유튜브 크리에이터 상위 3명씩 찾아줘”라는 요청을 받으면, 오케스트레이터가 100개의 서브 에이전트를 만들어서 각각 하나의 분야를 담당하게 만듭니다.
각 서브 에이전트는 ‘AI 연구자’, ‘물리학 연구자’, ‘팩트 체커’ 같은 역할을 맡아서 독립적으로 검색하고 분석합니다. 이 과정에서 최대 1,500번의 도구 호출이 동시다발적으로 일어나고, 모든 결과는 하나의 구조화된 스프레드시트로 취합됩니다. 기존 단일 에이전트 방식이라면 100개 분야를 순차적으로 처리해야 했지만, Agent Swarm은 이를 병렬로 처리해서 실제 작업 시간을 최대 80%까지 줄입니다.
Moonshot AI는 이런 병렬 처리 능력을 ‘Parallel-Agent Reinforcement Learning(PARL)’이라는 학습 방법으로 훈련했습니다. 기존 AI는 병렬 처리가 가능한 상황에서도 습관적으로 순차 처리로 돌아가는 ‘Serial Collapse’ 문제가 있었는데, PARL은 학습 초기에는 병렬성을 장려하는 보상을 주고, 나중에는 작업 품질에 집중하도록 보상 체계를 단계적으로 조정합니다.
비디오를 보고 웹사이트를 만든다
Kimi K2.5는 단순히 여러 에이전트를 돌리는 것 이상의 능력을 보여줍니다. 시각 정보를 이해하고 이를 코드로 바로 변환하는 ‘시각 기반 코딩’ 능력이 대표적이죠. 사용자가 웹사이트 화면을 녹화한 비디오를 업로드하면, K2.5는 그 비디오를 분석해서 실제로 작동하는 HTML/CSS/JavaScript 코드를 생성합니다. 스크롤 효과나 애니메이션 같은 인터랙티브 요소까지 구현합니다.
이 능력은 약 15조 개의 시각-텍스트 통합 데이터로 사전 학습한 결과입니다. 흥미로운 점은 시각 능력과 텍스트 능력이 서로 trade-off 관계가 아니라 함께 향상된다는 겁니다. 실제로 K2.5는 이미지 문서 이해 벤치마크인 OmniDocBench 1.5에서 88.8%를 기록했고, 비디오 이해 벤치마크인 VideoMMMU에서는 86.6%를 달성했습니다.
또한 K2.5는 자신이 생성한 결과물을 시각적으로 검증하고 수정하는 ‘자율 시각 디버깅’ 능력도 갖췄습니다. 마티스의 ‘La Danse’ 작품 스타일을 반영한 웹페이지를 만들라는 요청을 받으면, K2.5는 코드를 생성한 뒤 실제 렌더링된 결과를 확인하고, 색감이나 레이아웃이 원본 작품과 맞지 않으면 스스로 수정 작업을 반복합니다.
복잡한 문서 작업도 대화로 끝낸다
Agent Swarm이 연구나 개발 작업에 특화되어 있다면, K2.5 Agent 모드는 실무 오피스 작업에 집중합니다. 워드 문서에 주석 추가하기, 피벗 테이블이 포함된 복잡한 스프레드시트 만들기, LaTeX 수식이 들어간 PDF 보고서 작성하기 같은 작업을 대화만으로 처리합니다.
Moonshot AI는 내부적으로 ‘AI Office Benchmark’와 ‘General Agent Benchmark’라는 두 가지 전문가급 평가 지표를 만들어 테스트했습니다. K2.5는 이 벤치마크들에서 이전 모델인 K2 Thinking 대비 각각 59.3%와 24.3%의 성능 향상을 보였습니다. 특히 10,000단어짜리 논문이나 100페이지 분량의 문서 작업도 무리 없이 처리할 수 있다고 합니다.
소프트웨어 엔지니어링 작업에서도 두각을 나타냅니다. SWE-Bench Verified에서 76.8%를 기록했는데, 이는 GPT-5.2(80%)와 Claude 4.5 Opus(80.9%)에 근접한 수준입니다. 다국어 코딩 벤치마크인 SWE-Bench Multilingual에서는 73%로 DeepSeek V3.2(70.2%)를 앞섰습니다.
오픈소스 AI의 새로운 가능성
Kimi K2.5가 주목받는 이유는 단순히 성능 때문만은 아닙니다. 오픈소스 모델로 공개되면서 개발자들이 직접 내려받아 커스터마이징할 수 있다는 점이 큽니다. Hugging Face에서 가중치를 받을 수 있고, API를 통해서도 사용 가능합니다. 특히 Kimi Code라는 오픈소스 코딩 도구와 결합하면 VSCode, Cursor, Zed 같은 IDE에서 터미널 환경으로 K2.5의 에이전트 기능을 활용할 수 있습니다.
비용 효율성도 경쟁력 있습니다. Moonshot AI는 HLE, BrowseComp, SWE-Verified 같은 에이전트 벤치마크에서 경쟁 모델들보다 훨씬 낮은 토큰 비용으로 비슷하거나 더 나은 성능을 낸다고 주장합니다. 물론 Agent Swarm은 많은 서브 에이전트를 동시에 실행하기 때문에 토큰 소비량 자체는 높을 수 있지만, 작업 완료 시간을 크게 줄인다는 점에서 시간 대비 효율은 높아집니다.
다만 벤치마크 성능이 실제 사용 경험과 항상 일치하는 건 아닙니다. 일부 사용자들은 중국 모델들이 벤치마크에 특화되어 있어서(‘bench maxed’) 실제 복잡한 프로젝트에서는 Claude나 GPT만큼 안정적이지 않다는 의견도 있습니다. 또한 Agent Swarm 기능은 현재 베타 단계로, 유료 사용자에게만 제한적으로 제공되고 있습니다.
그럼에도 불구하고 Kimi K2.5는 오픈소스 AI 생태계에서 중요한 이정표입니다. 단일 모델의 성능 향상을 넘어, 다수의 AI 에이전트가 협력하는 ‘swarm intelligence’ 개념을 실제로 구현했다는 점에서 의미가 큽니다. Moonshot AI는 K2.5를 “오픈소스 커뮤니티를 위한 AGI로 향하는 의미 있는 한 걸음”이라고 표현했는데, 과장이 섞여 있더라도 병렬 에이전트 시스템이 앞으로 AI 개발의 중요한 방향이 될 거라는 건 분명해 보입니다.
참고자료:

답글 남기기