같은 AI 모델, 같은 앱, 같은 작업을 시켰는데 한쪽은 551,000 토큰을 썼고 다른 쪽은 12,000 토큰이면 끝났습니다. 차이는 모델 성능이 아니라 에이전트가 앱과 어떻게 ‘대화’했느냐였습니다.

Python 웹 프레임워크 Reflex가 AI 에이전트의 두 가지 작동 방식을 직접 벤치마크한 결과를 공개했습니다. 고객 관리 어드민 패널에서 동일한 작업을 수행하도록 Claude Sonnet 기반 에이전트 두 종류를 실행했고, 비전 에이전트(스크린샷+클릭)가 구조화된 API 에이전트보다 평균 45배 비쌌습니다.
출처: Computer use is 45x More Expensive Than Structured APIs – Reflex
용어 참고: 원문 제목은 “Computer Use”라는 표현을 씁니다. 여기서 Computer Use란 Anthropic의 특정 API를 가리키는 게 아니라, 스크린샷을 보며 UI를 조작하는 에이전트 방식 전반을 뜻합니다. 이 실험에서는 browser-use 0.12 라이브러리를 vision 모드로 사용했습니다.
비전 에이전트는 처음엔 실패했다
실험 과제는 이런 작업이었습니다. “Smith”라는 이름의 고객 중 주문이 가장 많은 사람을 찾고, 가장 최근의 대기 중 주문을 확인하고, 보류 중인 리뷰를 모두 승인한 뒤 주문을 배송 완료로 처리하라.
API 에이전트는 8번의 API 호출로 완료했습니다. 비전 에이전트는 같은 프롬프트로 실패했습니다. 4개의 보류 리뷰 중 1개만 처리하고 멈췄습니다. 나머지 3개는 화면 아래에 있었고, 스크롤해야 보인다는 신호를 에이전트가 얻지 못했기 때문입니다.
이건 모델의 문제가 아니었습니다. 비전 에이전트는 렌더링된 화면만 볼 수 있고, 현재 보이는 것이 전체인지 아닌지를 화면 픽셀에서 판단해야 합니다. API 에이전트는 같은 핸들러를 호출하지만, 응답에 “페이지 1/4, 전체 50개” 같은 구조화된 정보가 담겨 있어 놓칠 이유가 없습니다.
비전 에이전트를 성공시키려면 14단계짜리 UI 조작 가이드가 필요했습니다. 사이드바 항목, 탭 이름, 폼 필드를 하나하나 명시한 프롬프트였습니다. 이 작업 자체가 엔지니어링 비용입니다. 토큰 수에는 잡히지 않지만, 실제로 존재하는 비용이죠.
45배 차이의 구조적 원인
결과 수치를 보면 격차가 분명합니다.
| 비전 에이전트 | API 에이전트 | |
|---|---|---|
| 평균 입력 토큰 | ~551,000 | ~12,000 |
| 평균 소요 시간 | ~17분 | ~8초 |
| 도구 호출 수 | 43~68회 | 8회 (고정) |
비전 에이전트는 세 번 실험에서 토큰 소모가 407,000~751,000으로 편차도 컸습니다. API 에이전트는 다섯 번 모두 8회 호출, 토큰 편차 ±27로 거의 동일했습니다.
Reflex는 이 차이의 원인을 명확하게 짚습니다. 비전 에이전트는 매 단계마다 화면을 렌더링하고 스크린샷을 찍고 픽셀을 해석해야 합니다. 모델이 좋아지면 스크린샷당 오류율은 줄겠지만, 스텝 수 자체는 줄어들지 않습니다. 스텝 수는 인터페이스 구조가 결정하기 때문입니다. 반면 API 에이전트는 UI가 어차피 호출하는 것과 동일한 핸들러를 직접 호출하고, 이미 정제된 구조화 데이터를 받습니다.
그래서 언제 무엇을 써야 하나
Reflex는 이 결과로 비전 에이전트가 쓸모없다고 말하지 않습니다. 오히려 적합한 상황을 명확히 구분합니다.
비전 에이전트가 맞는 경우는 당신이 제어할 수 없는 앱입니다. 외부 SaaS, 레거시 시스템, API를 열어주지 않는 서비스. 이런 경우엔 화면을 보는 것 외에 선택지가 없습니다.
반면 직접 만드는 내부 툴이라면 수식이 달라집니다. 지금까지 API 표면을 만드는 것 자체가 별도 엔지니어링 프로젝트였기 때문에 많은 팀이 비전 에이전트를 택했습니다. 20개 넘는 내부 도구 각각에 MCP나 REST API를 붙이는 건 현실적이지 않았으니까요. Reflex는 자사 0.9 버전에서 앱의 이벤트 핸들러로부터 HTTP 엔드포인트를 자동 생성하는 플러그인을 선보이면서 이 구조적 장벽을 낮추는 방향을 제안하고 있습니다.
비용의 문제가 아니라 무엇을 선택할 수 있는가의 문제였던 셈입니다. API 표면을 만드는 비용이 0에 가까워질수록, 내부 툴에서 비전 에이전트를 기본값으로 쓸 이유는 줄어듭니다.

답글 남기기