AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

Claude Computer Use 팁 – 브라우저·컴퓨터 사용 에이전트 안정화 베스트 프랙티스

Claude의 computer use와 browser use는 모델이 화면을 보고 클릭·입력·탐색하는 기능이다. 안정적인 제품으로 만들려면 “스크린샷을 보내고 클릭하게 한다”에서 끝나지 않는다. 해상도, 좌표 스케일링, 메시지 순서, thinking effort, 프롬프트 인젝션 방어, 장기 컨텍스트 관리까지 함께 설계해야 한다.

스크린샷 해상도

기본값은 1280×720이 안전하다. Claude 4.6 계열은 긴 변과 총 픽셀 제한을 넘으면 이미지가 자동 축소되어 클릭 정확도가 떨어질 수 있다. Opus 4.7은 더 높은 픽셀 예산을 활용할 수 있어 1080p부터 시작할 수 있다.

피해야 할 패턴은 다음과 같다.

  • 4K 원본 이미지를 그대로 전송
  • 960×540 이하 저해상도 전송
  • 원본 비율을 무시한 강제 16:9 변환
  • macOS device pixel ratio 2를 고려하지 않은 좌표 처리

좌표 스케일링

모델은 API에 전달한 display_width_px, display_height_px 기준으로 좌표를 반환한다. 실제 화면에 클릭하려면 원본 화면 크기로 되돌려야 한다.

scale_x = screen_w / display_w
scale_y = screen_h / display_h

screen_x = int(api_x * scale_x)
screen_y = int(api_y * scale_y)

클릭이 한 방향으로 계속 어긋나면 display 크기와 실제 이미지 크기가 일치하는지 먼저 확인해야 한다.

메시지 순서

스크린샷보다 텍스트 지시를 먼저 둔다. 모델이 이미지를 처리하기 전에 무엇을 찾아야 하는지 알 수 있어 클릭 정확도가 좋아진다.

content = [
  {"type": "text", "text": "오른쪽 아래 Submit 버튼을 클릭하라"},
  {"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": b64}},
]

thinking effort 선택

UI 작업은 수학·코딩처럼 깊은 논리만 필요한 문제가 아니라 지각과 기계적 조작이 섞인 작업이다.

모델/상황권장 effort
Claude 4.6 계열 기본medium
4.6 계열 고처리량low
4.6 계열 단순 반복thinking 비활성화 가능
Opus 4.7 어려운 작업high
Opus 4.7 비용 민감low

작은 버튼, 체크박스, 드롭다운 화살표처럼 tiny target이 많으면 enable_zoom: True, 키보드 네비게이션, DOM 조작 대안을 함께 제공하는 편이 낫다.

프롬프트 인젝션 방어

컴퓨터 사용 에이전트는 웹페이지와 애플리케이션 UI라는 비신뢰 입력을 본다. 화면 속 텍스트가 “이전 지시를 무시하라”는 식으로 모델을 속일 수 있다. Anthropic은 공식 computer use tool header에서 프롬프트 인젝션 classifier를 제공하며, 제품 통합에서는 다음 방어층이 필요하다.

  • 모델 자체의 주입 공격 거부 능력
  • 실시간 classifier
  • 위험 액션 전 사용자 확인
  • 다운로드·외부 전송·결제 같은 고위험 도구 제한
  • 전체 trajectory 로그와 실패 분석 도구

긴 세션 컨텍스트 관리

스크린샷을 계속 쌓으면 토큰 비용이 급격히 증가한다. 실전 기본값은 다음 조합이다.

  • 최근 3개 스크린샷만 원본으로 유지
  • 오래된 이미지는 [Image omitted] placeholder로 치환
  • 일정 간격으로만 prune해 prompt cache prefix를 안정화
  • 장기 작업은 compaction prompt로 사용자 지시, 진행 상태, 오류·수정 내역을 보존

Teach Mode 패턴

텍스트로 워크플로를 설명하기 어렵다면 사용자가 직접 시연한 동작을 기록해 재사용한다. 클릭, 키보드 입력, URL 변화, 스크린샷, 선택자, 좌표를 캡처하고, 실행 시 Claude에게 “이 데모를 현재 UI에 맞게 적응해 수행하라”고 제공한다. 단순 좌표 재생이 아니라 목표 지향 재현이 핵심이다.

관련 문서

참고 자료



AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)