클로즈드소스 모델이 1달러를 쓸 때, 오픈소스 모델은 3센트로 비슷한 성과를 냈습니다. 이건 이론적 주장이 아니라 실제 실험 결과입니다.

AI 스타트업 Sentient가 “Grounded Reasoning” 챌린지 결과를 공개했습니다. 1,200명 이상의 지원자 중 선발된 147명의 빌더들이 동일한 오픈소스 모델(MiniMax M2.5)로 Databricks의 OfficeQA 벤치마크에 도전했고, 상위 6개 팀은 평균 70% 정확도를 기록하며 클로즈드소스 대비 30분의 1 비용에 유사한 성능을 달성했습니다.
출처: How Open-Source Agents Matched Frontier AI at 1/30th the Cost – Sentient AGI
30×의 비용 차이, 10%의 정확도 차이
실험은 단순했습니다. 모든 팀은 동일한 오픈소스 모델(MiniMax M2.5)을 쓰고, 프롬프트 엔지니어링·스킬 파일·하네스 선택만으로 경쟁했습니다. 이후 Sentient는 동일한 설정으로 Claude Opus 4.5(클로즈드소스)를 돌려 직접 비교했습니다.
결과를 숫자로 보면:
- MiniMax M2.5 평균 비용: $1.74/run, 정확도: ~70%
- Claude Opus 4.5 평균 비용: $56.53/run, 정확도: ~80%
정확도는 10%포인트 뒤지지만, 비용은 30배 이상 저렴합니다. 비용 패널티를 점수에 반영하면 상위 6개 팀 모두에서 MiniMax M2.5가 Opus 4.5를 앞섰습니다.
하네스 선택이 성능을 결정한다
이번 실험에서 가장 주목할 부분 중 하나는 ‘어떤 AI 에이전트 하네스를 쓰느냐’가 성능에 미치는 영향이 컸다는 점입니다. 오픈소스 에이전트 Goose를 사용한 팀은 대안 대비 정확도가 약 10% 높았고, 비용은 8배 저렴했습니다. Terminal Bench 2.0에서도 독립 검증이 이뤄졌는데, Goose는 OpenHands보다 토큰 효율이 20배 높았고 OpenCode보다 40배 이상 저렴했습니다.
모델을 선택하는 것 못지않게, 그 모델을 어떤 실행 환경에 올리느냐가 결과를 바꿀 수 있다는 얘기입니다.
모델에는 능력의 천장이 있었다
한편, 흥미로운 패턴도 발견됐습니다. 아무리 프롬프트를 다듬어도 팀들이 일정 수준 이상으로 올라가지 못하는 성능의 천장이 존재했습니다. 한 팀의 분석에 따르면 MiniMax M2.5는 질문의 약 45%는 항상 맞히고, 25%는 항상 틀리고, 나머지 30%는 들쭉날쭉합니다. 이는 프롬프팅의 문제가 아니라 모델 자체의 한계였습니다. 오답의 68%는 “올바른 파일을 찾았지만 표에서 잘못된 셀을 읽은” 경우였습니다.
Opus 4.5로 전환하면 이 천장은 자연스럽게 올라갔지만, ‘항상 틀리는’ 문제들은 여전히 풀리지 않았습니다. 비용을 더 쓴다고 무조건 해결되지 않는 문제의 벽이 LLM에게 존재한다는 뜻입니다.
프롬프팅 디테일이 결과를 뒤집었다
예상 밖의 발견도 있었습니다. 모델을 어떻게 ‘대하느냐’가 성능에 영향을 미쳤습니다.
한 팀은 동일한 내용의 프롬프트를 두 가지 방식으로 실험했습니다. 모델을 도구처럼 다루는 냉정한 어조로 프롬프팅하면 특정 질문군에서 25% 정확도가 나왔고, “동료가 남겨 준 메모”처럼 따뜻하게 표현하면 같은 내용에서 88%가 나왔습니다. 내용은 같고 관계 맥락만 달랐는데 3배 차이가 났습니다.
또 다른 팀은 질문을 건너뛰면 감점된다는 거짓 규칙을 프롬프트에 넣었습니다. 실제 채점 방식에는 그런 패널티가 없었지만, 이 거짓말 하나로 건너뛴 질문 수가 49개에서 17개로 65% 줄었습니다. 모델이 추측이라도 제출하는 게 유리한 상황에서, 그걸 자연스럽게 하도록 유도한 셈입니다.
프롬프트 밀도도 마찬가지였습니다. 길고 상세한 프롬프트보다 짧고 압축된 프롬프트가 같은 정확도를 내면서 비용을 87% 줄였습니다.
오픈소스 AI의 현재 위치
이번 실험이 보여주는 건 “오픈소스가 클로즈드소스를 이겼다”는 단순한 승패가 아닙니다. 순수 정확도에서는 여전히 클로즈드소스가 앞섭니다. 그러나 비용을 함께 고려하면 판이 달라집니다. 충분한 엔지니어링으로 오픈소스 모델은 달러당 성능에서 클로즈드소스를 능가할 수 있다는 것, 그리고 그 격차는 모델만이 아니라 하네스·프롬프팅·실행 전략에서 상당 부분 만들어진다는 점이 핵심입니다.
Sentient는 이번 챌린지에서 생성된 108,000개 이상의 추론 트레이스를 Hugging Face에 공개할 예정이라고 밝혔습니다. AI 에이전트의 실패 패턴을 분석하거나 LLM 파인튜닝에 관심 있는 분들에게는 흥미로운 데이터셋이 될 것입니다.

답글 남기기