AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

Webwright – 터미널만으로 SOTA를 달성하는 Microsoft의 브라우저 에이전트

Webwright는 Microsoft Research가 공개한 SWE 스타일 브라우저 에이전트 프레임워크다. LLM에게 멀티 에이전트 시스템이나 그래프 엔진 없이 터미널 하나만 주고, 모델이 직접 Playwright Python 스크립트를 작성해 웹 태스크를 완수하게 한다. Online-Mind2Web(300개 태스크) 86.7%, 장기 호라이즌 태스크 벤치마크 Odysseys(200개 태스크) 60.1%로 오픈소스 공개 하네스 중 최고 수준의 성능을 달성했다.

핵심 아이디어

대부분의 브라우저 에이전트는 “다음 클릭할 위치”를 예측하는 방식으로 작동한다. Webwright는 다르다:

“브라우저는 에이전트가 스폰하는 환경일 뿐이다. 진짜 상태는 코드·스크린샷·로그가 쌓이는 로컬 워크스페이스다.”

코딩 모델이 Playwright 스크립트를 직접 작성하고, 실행하고, 스크린샷으로 결과를 확인한 뒤 자가 수리(repair)한다. 전체 브라우징 이력이 단 하나의 재실행 가능한 Python 파일로 남는다.

경쟁 프레임워크와 비교

Stagehandbrowser-useagent-browser (Vercel)Webwright
패러다임코드 + NL 프리미티브 혼합DOM/AX 스냅샷 기반 자율 루프다른 에이전트가 호출하는 CLI코딩 에이전트 + 터미널
액션 공간Playwright 코드 또는 NL→Playwright인덱스 클릭/타입이산적 서브커맨드자유형 Python 스크립트
“상태”의 정의브라우저 세션브라우저 세션브라우저 세션로컬 워크스페이스
루프 형태명령형observe→predict→executeCLI 한 번 호출=마이크로스텝코드 작성→실행→수리

성능 벤치마크 (100-step 예산)

  • Online-Mind2Web (300개 태스크): GPT-5.4 기준 86.7% — 오픈소스 공개 하네스 중 AutoEval 카테고리 최고 – Claude Opus 4.7도 84.7% 달성, 어려운 분할에서는 오히려 더 강함(80.5% vs 76.6%)
  • Odysseys (200개 장기 호라이즌 태스크): GPT-5.4 기준 60.1% (평균 76.1 스텝) – 이전 SOTA 대비 +15.6점 개선 (Opus 4.6 44.5%) – 기본 GPT-5.4(xy좌표 예측) 대비 +26.6점

소형 모델도 효과적이다: 5개 이상의 재사용 가능한 도구가 있으면 Qwen-3.5-9B도 Online-Mind2Web에서 준수한 성능을 낸다. 생성된 스크립트를 매개변수화된 CLI 도구로 패키징해 재사용하는 구조 덕분이다.

지원 백엔드

  • OpenAI, Anthropic, OpenRouter

Claude Code 플러그인/스킬

Webwright를 Claude Code의 스킬로 추가해 기존 에이전트의 브라우저 태스크 능력을 강화하는 것도 지원한다. README의 “Use as a Claude Code skill” 섹션을 참조.

설치

# Python ≥ 3.10 필요
git clone https://github.com/microsoft/Webwright
cd Webwright
pip install -e .
playwright install chromium

사용 대상

  • 웹 자동화 연구자: SOTA급 브라우저 에이전트를 로컬에서 실험하고 싶은 경우
  • AI 애플리케이션 개발자: 코딩 모델의 웹 태스크 완수 능력을 통합하려는 경우
  • 에이전트 프레임워크 비교자: 코드 기반 액션 vs 좌표 예측 방식의 차이를 직접 검증하고 싶은 경우

참고 자료



AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)