Google이 웹 브라우저를 사람처럼 조작할 수 있는 Gemini 2.5 Computer Use 모델을 공개하며 AI 에이전트 경쟁에 본격 합류했습니다. OpenAI의 ChatGPT Agent 발표 하루 만에 나온 이번 출시는 단순 대화형 AI에서 실행형 에이전트로의 전환을 가속화하는 신호탄입니다.

핵심 포인트:
- 50% 빠른 속도로 경쟁사 압도: 웹 브라우저 제어 벤치마크에서 최고 성능과 최저 지연시간 동시 달성, 실무 적용의 핵심 장벽 해결
- API 없는 세상의 자동화 실현: 폼 작성, 드롭다운 조작, 로그인 처리 등 기존에 자동화 불가능했던 UI 기반 작업 수행 가능
- Google 내부 검증 완료: UI 테스트 실패의 25%를 차지하던 문제 중 60% 이상을 자동으로 해결하며 실전 효과 입증
웹을 사람처럼 다루는 AI의 등장
Gemini 2.5 Computer Use는 스크린샷을 분석해 클릭, 타이핑, 스크롤, 드래그앤드롭 등 13가지 액션을 수행합니다. 사용자 요청과 화면 상태, 최근 행동 기록을 입력받아 다음 액션을 결정하고 실행하는 방식이죠. 결제처럼 민감한 작업은 사용자 확인을 요청합니다.
흥미로운 건 이 모델이 이미 Google 내부에서 실전 투입됐다는 점입니다. UI 테스트 자동화에 적용한 결과, 기존에는 며칠씩 걸리던 테스트 오류 수정을 자동으로 처리하게 됐습니다. Project Mariner와 AI Mode 검색의 에이전트 기능에도 활용되고 있죠.

AI 에이전트 삼국지의 시작
OpenAI가 ChatGPT Agent를 발표한 다음 날, Google이 Gemini Computer Use를 공개했습니다. Anthropic은 이미 작년 10월 Claude의 Computer Use 기능을 선보인 바 있죠. 세 회사 모두 같은 방향을 보고 있습니다. 단순히 질문에 답하는 AI가 아니라, 실제로 작업을 수행하는 AI 에이전트로의 전환입니다.
차이는 접근 방식에 있습니다. OpenAI의 Agent는 컴퓨터 전체를 제어하는 반면, Google은 웹 브라우저에 집중했습니다. 데스크톱 OS 수준 제어는 아직 최적화하지 않았다고 밝혔죠. 대신 속도에서 경쟁력을 확보했습니다. 경쟁사 대비 50% 빠른 성능은 실무 적용의 결정적 차별화 요소입니다.
API가 없어도 자동화할 수 있는 시대
Computer Use가 여는 가능성은 명확합니다. 지금까지 자동화는 API가 제공되는 서비스에 한정됐습니다. 하지만 웹상의 수많은 서비스는 여전히 사람이 직접 브라우저로 접속해 처리해야 하죠. 폼 작성, 필터 조작, 로그인 처리 같은 작업들입니다.
초기 테스터들의 반응도 긍정적입니다. AI 비서 서비스 Poke.com은 “속도가 특히 중요한 우리 워크플로우에서 경쟁 솔루션보다 50% 빠르고 우수하다”고 평가했습니다. AI 에이전트 Autotab은 “복잡한 상황에서 맥락 파싱 성능이 최대 18% 향상됐다”고 밝혔죠.
개발자들은 Google AI Studio와 Vertex AI를 통해 API에 접근할 수 있습니다. Browserbase에서 제공하는 데모 환경에서 2048 게임하기, Hacker News 트렌드 분석하기 같은 작업을 직접 시연해볼 수도 있죠.

에이전트 시대의 개막
AI가 단순히 답변하는 존재에서 실제로 일을 처리하는 존재로 변모하고 있습니다. 며칠 전만 해도 미래의 이야기처럼 들렸던 AI 에이전트가 이제 현실이 되고 있죠. Google, OpenAI, Anthropic의 동시다발적 움직임은 이 변화가 얼마나 빠르게 진행되고 있는지 보여줍니다.
참고자료:
답글 남기기