AI 토큰 비용이 치솟자 일부 기업은 사용량을 제한하는 대신, AI가 원시인처럼 짧게 말하도록 만드는 쪽을 택했습니다.

404 Media에 따르면 OpenAI, Nvidia, GitHub의 개발자들이 Claude Code나 Codex 같은 코딩 에이전트에 “caveman”이라는 도구를 적용해 쓰고 있습니다. 장황하게 설명하던 AI 응답을 뼈대만 남기고 잘라내는 방식인데, OpenAI의 한 시니어 직원이 직접 코드를 기여했을 정도로 커뮤니티가 커졌습니다.
출처: caveman – GitHub (Julius Brussee)
왜 갑자기 말수를 줄이나
발단은 비용입니다. GitHub Copilot이 정액제 대신 토큰 단위 과금으로 바꾸면서 사용량이 그대로 청구서로 이어지기 시작했고, Uber는 몇 달 만에 AI 예산을 다 써버린 뒤 직원들의 Claude Code·Cursor 사용을 제한했죠. 개인이 API 요금이나 구독료를 직접 부담하는 경우도 사정은 비슷합니다. 같은 질문에 AI가 세 문장이면 끝날 답을 열 문장으로 늘어놓는다면, 그 차이는 고스란히 청구서에 남는 겁니다.
caveman은 사용량 자체를 줄이는 대신 응답의 밀도를 높이는 쪽을 택했습니다. “코드는 되는데 왜 이렇게 비싸지”라는 질문에 대한 답을, 덜 쓰는 게 아니라 덜 말하는 것으로 찾은 셈이죠.
caveman은 정확히 뭘 바꾸나
에이전트에게 이 도구를 적용하면 관사, 상투적 인사말, “기꺼이 도와드리겠습니다” 같은 군더더기가 빠지고, 핵심 정보와 코드만 남습니다. “이 버그의 원인은 인증 미들웨어가 토큰 만료를 제대로 검증하지 못했기 때문입니다”라는 문장이 “인증 미들웨어 버그. 토큰 만료 체크 오류”로 줄어드는 식입니다. 코드나 에러 메시지, 파일 경로 같은 정확성이 필요한 부분은 그대로 보존되고, 압축은 설명하는 말투에만 적용됩니다.
제작자가 공개한 벤치마크에서는 10개 태스크 평균 65%의 출력 토큰이 줄었고, 문제에 따라 22%에서 87%까지 편차가 있었습니다. 압축 대상은 답변의 내용이 아니라 형식이라는 것이 핵심이죠. React 리렌더링 버그를 설명하든 PostgreSQL 커넥션 풀을 설정하든 압축률은 원래 답변이 얼마나 장황했는지에 좌우되는 겁니다.
“짧게 말하면 더 똑똑해진다”는 주장, 근거를 들여다보면
caveman 저장소는 이 압축이 단순히 비용만 줄이는 게 아니라 정확도까지 높인다는 근거로 한 논문을 인용합니다. 모델을 짧게 답하도록 제약했더니 정확도가 26%포인트 개선됐다는 결과입니다. 실제로 이 논문을 찾아 확인해보면 이야기가 조금 더 복잡합니다.
해당 연구는 0.5B에서 405B까지, 31개의 오픈웨이트 모델을 대상으로 진행됐습니다. 연구팀이 발견한 현상은 큰 모델이 특정 문제에서 오히려 작은 모델보다 낮은 점수를 받는다는 것이었고, 원인은 모델이 필요 이상으로 설명을 덧붙이다 스스로 오답에 빠지는 “과잉 서술”이었습니다. 답변 길이를 강제로 줄이자 이 역전 현상이 사라지고, 큰 모델이 다시 작은 모델을 앞섰습니다. GSM8K 같은 수학 문제나 과학 지식 벤치마크에서는 그 차이가 더 뚜렷했습니다.
문제는 이 연구가 검증한 대상이 Claude나 Codex 같은 상용 코딩 에이전트가 아니라는 점입니다. 벤치마크 문제 풀이에서 관찰된 “과잉 서술이 오답을 부른다”는 현상을, 실제 코드를 작성하고 디버깅하는 작업에 그대로 적용할 수 있는지는 이 논문만으로는 답이 나오지 않습니다. 토큰을 줄이면 속도와 비용이 함께 줄어든다는 건 분명하지만, 그게 곧 코드 품질 개선을 보장한다는 뜻은 아닙니다.
caveman 문서 스스로도 압축이 적용되는 건 출력뿐이고 추론 과정에는 손대지 않는다고 선을 긋습니다. 생각하는 과정은 그대로 두고 말하는 방식만 줄인다는 뜻이죠. 비용 절감의 핵심은 여기에 있고, 정확도 개선은 부수적인 효과로 언급될 뿐입니다.
말을 줄이는 것과 생각을 줄이는 것은 다른 문제입니다. AI가 장황하게 설명하던 습관을 걷어내는 일이 비용에는 분명히 도움이 되지만, 그 근거로 인용된 연구가 정확히 무엇을 증명했는지는 별도로 확인해볼 만합니다.
참고자료:

답글 남기기