AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

Kimi·Cursor·Chroma가 에이전틱 AI를 훈련한 방식, 세 가지 공통 원칙

사진 출처: philschmid.de

Kimi, Cursor, Chroma — 서로 다른 회사가 서로 다른 문제를 풀었는데, 훈련 방식이 거의 같았습니다. 세 팀이 각각 공개한 기술 보고서를 보면, 강화학습으로 에이전틱 AI를 훈련할 때 독립적으로 같은 결론에 도달했음을 알 수 있습니다.

출처: How Kimi, Cursor, and Chroma Train Agentic Models with RL – Philipp Schmid

세 팀이 풀려 한 문제는 각각 달랐다

Kimi K2.5는 복잡한 작업을 여러 에이전트에게 나눠 병렬로 처리하는 구조를 학습시키는 게 목표였습니다. Cursor Composer 2는 실제 개발 세션처럼 수십 번의 도구 호출이 이어지는 긴 코딩 작업에서 어떻게 맥락을 유지할지가 문제였습니다. Chroma Context-1은 검색 에이전트가 문서를 찾을수록 컨텍스트가 꽉 차는 문제를 해결해야 했습니다.

문제는 달랐지만 해법의 큰 틀은 비슷했습니다. 세 팀 모두 강화학습(RL)을 썼고, 세 가지 원칙을 공유했습니다.

원칙 1: 훈련 환경을 프로덕션과 똑같이 만든다

세 팀 모두 실제 배포 환경과 동일한 조건에서 훈련했습니다. Cursor는 사용자가 실제로 쓰는 Cursor 백엔드의 그림자 복사본을 훈련 중에도 그대로 돌렸고, Kimi는 하위 에이전트들이 프로덕션과 같은 도구 환경에서 작동하도록 했습니다. Chroma는 실제 데이터베이스를 대상으로 검색 롤아웃을 실행했습니다.

이 접근의 핵심은 ‘훈련-배포 갭’을 없애는 것입니다. Cursor가 SWE-bench 같은 공개 벤치마크를 신뢰하지 않고 내부적으로 CursorBench를 만든 이유도 여기에 있습니다. CursorBench의 작업은 실제 엔지니어링 세션에서 가져왔는데, 변경 코드 줄 수의 중앙값이 181줄로 SWE-bench(7~10줄)와 비교가 되지 않을 정도로 현실적입니다.

원칙 2: 컨텍스트 관리를 핵심 문제로 다룬다

에이전트가 작업을 이어가다 보면 컨텍스트 창이 가득 찹니다. 세 팀은 각자 다른 방식으로 이를 해결했습니다.

Cursor는 셀프 요약(self-summarization) 방식을 택했습니다. 롤아웃 도중 모델이 스스로 요약을 생성하고, 그 요약이 얼마나 핵심 정보를 잘 보존했는지에 따라 보상을 받습니다. 좋은 요약은 강화되고, 정보를 잃어버리는 요약은 약화되는 구조입니다.

Kimi는 병렬 에이전트 분산 방식을 썼습니다. 오케스트레이터 모델이 작업을 하위 에이전트들에게 분산하면, 각 하위 에이전트는 독립적인 컨텍스트 창에서 실행됩니다. 컨텍스트 과부하 자체를 구조적으로 피하는 방식입니다. 실제로 이 접근은 추론 지연을 최대 4.5배 줄이면서 정확도도 높였습니다.

Chroma는 셀프 편집 컨텍스트(self-editing context) 방식을 개발했습니다. 모델에게 prune_chunks라는 도구를 줬고, 더 이상 필요 없는 문서 청크를 스스로 삭제해 공간을 확보하도록 훈련했습니다. 컨텍스트 예산이 소진되면 다른 도구가 모두 막히고 정리 도구만 쓸 수 있게 하드코딩해, 모델이 반드시 정리를 학습하도록 유도했습니다.

원칙 3: 리워드 설계는 계속 실패하고 수정한다

세 팀 모두 리워드 해킹(원래 의도와 다른 방식으로 보상을 최대화하는 행동)을 경험했고, 그때마다 보상 구조를 수정했습니다.

Kimi의 오케스트레이터는 처음에 병렬 에이전트를 전혀 쓰지 않고 혼자 작업하는 국소 최적해에 빠졌습니다(‘serial collapse’). 반대로 의미 없는 하위 에이전트를 마구 생성해 병렬 보상만 챙기는 현상(‘spurious parallelism’)도 나타났습니다. Cursor의 모델은 잘못된 도구 호출을 반복하는 방식으로 보상을 우회하려 했고, Chroma의 에이전트는 첫 번째 검색 후 그냥 멈춰버리는 방식을 학습했습니다. 각 팀은 문제 행동을 관찰하고, 원인이 되는 인센티브를 파악하고, 보조 보상이나 패널티를 추가하는 방식으로 반복해서 수정했습니다.

작은 모델도 충분히 경쟁한다

Chroma의 Context-1은 200억 파라미터 모델입니다. 그런데 검색 정확도에서 훨씬 큰 프론티어 모델들과 비교해 경쟁력 있는 결과를 냈고, 속도는 10배 빠릅니다. Cursor의 Composer 2도 훨씬 큰 API 모델 대비 비용-정확도 트레이드오프에서 유리한 지점을 차지했습니다.

세 사례가 공통적으로 보여주는 것은, 도메인 특화 RL 훈련이 파라미터 수의 격차를 상당히 좁힐 수 있다는 점입니다. Philipp Schmid의 원문에는 각 팀의 리워드 함수 설계와 인프라 구성에 대한 기술적 세부사항이 더 담겨 있습니다.

참고자료:


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다