AI 에이전트가 소프트웨어를 개발할 때 드는 비용의 대부분은 코드 생성에서 온다고 생각하기 쉽습니다. 그런데 실제 측정 결과, 코드를 만드는 것보다 검토하고 수정하는 반복 과정에서 토큰의 절반 이상이 쓰이고 있었습니다.

콩코르디아 대학교 DAS 연구팀이 AI 멀티에이전트 시스템의 소프트웨어 개발 전 과정에서 토큰이 어떻게 소비되는지를 실증 분석한 논문을 발표했습니다. ChatDev 프레임워크와 GPT-5 모델을 활용해 30개의 소프트웨어 개발 태스크를 수행하고, 설계부터 문서화까지 각 단계별 토큰 소비량을 측정했습니다. AI 에이전트 시스템의 비용 구조를 소프트웨어 개발 관점에서 실제 데이터로 분석한 첫 번째 연구입니다.
출처: Tokenomics: Quantifying Where Tokens Are Used in Agentic Software Engineering – arXiv (2026)
토큰은 어디로 갔나
연구팀은 AI 에이전트 시스템의 비용 흐름을 파악하기 위해 개발 전 과정을 6단계로 나눴습니다. 설계(Design), 코딩(Coding), 코드 완성(Code Completion), 코드 리뷰(Code Review), 테스팅(Testing), 문서화(Documentation)가 그것입니다. 그리고 각 단계에서 소비된 입력·출력·추론 토큰을 모두 집계했습니다.
결과는 뚜렷했습니다. 코드 리뷰 단계 하나가 전체 토큰의 평균 59.4%를 차지했습니다. 피보나치 수열 생성 같은 단순 작업부터 체스 게임 같은 복잡한 애플리케이션까지 30가지 태스크를 분석했는데, 이 경향은 일관되게 나타났습니다.
왜 이렇게 집중될까요? ChatDev에서 코드 리뷰는 반복적(iterative)으로 수행됩니다. 에이전트들이 코드를 검토하고 의견을 교환하며 수정을 반복하는 과정에서, 매 라운드마다 지금까지 쌓인 대화 맥락을 통째로 입력으로 다시 넣습니다. 검토가 길어질수록 다음 라운드의 입력 크기도 눈덩이처럼 불어나는 구조입니다.
입력 토큰이 지배하는 소비 구조
토큰 유형별로 보면 또 다른 패턴이 보입니다. 전체 토큰 소비에서 입력 토큰이 평균 53.9%로 가장 큰 비중을 차지했습니다. 에이전트들이 서로 주고받는 메시지, 누적된 코드, 이전 대화 이력이 계속해서 다음 요청의 입력으로 포함되기 때문입니다.
연구팀은 이를 “에이전트 간 협업의 비효율성” 에 대한 실증적 증거로 해석합니다. 멀티에이전트 시스템이 더 많은 에이전트를 붙이고, 더 많은 라운드를 반복할수록 각 에이전트가 처리해야 할 컨텍스트 크기는 기하급수적으로 늘어날 수 있다는 것입니다. 이전 연구에서 개념적으로 제기된 “에이전트 간 커뮤니케이션 세금(communication tax)”이 실제로 존재한다는 것을 수치로 보여준 셈입니다.
비용 최적화의 방향이 달라진다
이 연구가 흥미로운 이유는 AI 에이전트 비용 구조에 대한 통념을 뒤집기 때문입니다. 많은 사람들이 AI 코딩의 주요 비용을 “코드 생성”에서 찾지만, 실제 데이터는 “자동화된 검증과 수정”을 가리킵니다.
이는 효율화를 위한 관심의 방향도 달라져야 한다는 것을 시사합니다. 코드를 더 빠르게 생성하는 것보다, 리뷰 라운드를 줄이거나 컨텍스트 누적 방식을 개선하는 쪽이 비용 측면에서 더 효과적일 수 있습니다. 논문은 이를 토대로 토큰 효율적인 에이전트 협업 프로토콜 개발이 앞으로의 핵심 연구 방향이 되어야 한다고 제안합니다.
다만 이 연구는 ChatDev라는 단일 프레임워크와 30개 태스크를 대상으로 한 예비 분석(preliminary findings)이라는 점에서 한계가 있습니다. 다른 에이전트 아키텍처에서도 동일한 패턴이 나타나는지, 태스크 규모나 복잡도에 따라 분포가 어떻게 달라지는지는 논문에서도 향후 연구 과제로 남겨두고 있습니다.

답글 남기기