AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

Claude Code 오토 모드, 자율성과 안전 사이의 AI 실험

Claude Code를 써본 개발자라면 두 가지 선택지 사이에서 고민한 적이 있을 겁니다. 매번 뜨는 승인 창을 계속 클릭하거나, 아니면 모든 권한 확인을 꺼버리거나. 둘 다 불편합니다. 전자는 작업 흐름을 끊고, 후자는 AI가 파일을 지우거나 외부로 데이터를 보내도 막을 방법이 없습니다.

사진 출처: Anthropic

Anthropic이 3월 24일 Claude Code에 오토 모드(auto mode)를 추가했습니다. 개발자 대신 AI가 각 행동의 안전 여부를 직접 판단해 승인·차단을 결정하는 방식으로, 현재 Team 플랜에서 리서치 프리뷰로 제공 중이며 곧 Enterprise·API로 확대될 예정입니다.

출처: Auto mode for Claude Code – Anthropic

어떻게 작동하는가

오토 모드의 핵심은 분류기(classifier)입니다. Claude Code가 어떤 행동을 실행하기 전, 별도의 분류기 모델(Claude Sonnet 4.6)이 먼저 개입해 해당 행동이 사용자의 의도에 부합하는지 판단합니다.

기본적으로 허용되는 행동과 차단되는 행동은 명확히 구분됩니다. 작업 디렉터리 내 파일 조작, 읽기 전용 HTTP 요청, 이미 선언된 패키지 설치(pip install -r requirements.txt 등)는 자동으로 통과됩니다. 반면 외부 스크립트를 내려받아 실행하거나(curl | bash), 민감한 데이터를 외부 엔드포인트로 전송하거나, 클라우드 스토리지를 대량 삭제하는 행동은 차단됩니다.

분류기는 도구 실행 결과를 보지 않도록 설계되어 있습니다. 파일이나 웹페이지에 숨겨진 악성 명령어(프롬프트 인젝션)가 분류기를 조종하는 걸 막기 위한 구조적 선택입니다. 차단이 3회 연속 또는 총 20회 발생하면 시스템은 자동으로 수동 승인 모드로 전환됩니다.

기존 방식과 무엇이 다른가

Claude Code에는 이미 세 가지 모드가 있었습니다.

  1. 기본 모드: 모든 파일 쓰기·bash 명령에 승인 요청 → 안전하지만 작업 흐름이 잦게 끊김
  2. dangerously-skip-permissions: 모든 권한 확인 생략 → 빠르지만 위험
  3. 오토 모드: AI 분류기가 행동별로 판단 → 그 사이 어딘가

오토 모드는 --dangerously-skip-permissions에 안전 레이어를 얹은 확장판으로 볼 수 있습니다. 차이는 “누가 판단하느냐”입니다. 기존엔 사람이 직접 개입하거나 아예 포기하는 것뿐이었다면, 이제는 AI가 그 판단을 맡습니다.

한계는 분명히 있다

Anthropic 스스로도 오토 모드가 위험을 줄일 뿐 제거하지는 않는다고 밝힙니다. 사용자 의도가 모호하거나 환경 정보가 부족하면 위험한 행동이 통과될 수 있고, 반대로 멀쩡한 행동이 차단될 수도 있습니다.

개발자 Simon Willison은 AI 기반 분류기가 비결정론적(non-deterministic)이라는 점에서 한계가 있다고 지적합니다. 허용 목록에 포함된 pip install -r requirements.txt만 해도, 패키지 버전이 고정되지 않은 경우 공급망 공격(supply chain attack)에 취약할 수 있다는 겁니다. Anthropic도 현재는 격리된 샌드박스 환경에서 사용할 것을 권장합니다.

AI가 AI를 감시하는 구조

오토 모드에서 흥미로운 건 기술적 구조보다 그 함의입니다. 에이전트가 행동하고, 또 다른 AI 모델이 그 행동의 안전성을 판단합니다. 사람의 개입을 최소화하면서도 일정 수준의 통제를 유지하려는 시도인데, 자율 에이전트 시대에 “누가 무엇을 허용할 것인가”라는 질문을 AI 레이어에 위임하는 첫 번째 공개 실험에 가깝습니다.

Anthropic이 공개한 분류기의 기본 허용·차단 기준 전체 목록은 원문 기술 문서에서 확인할 수 있습니다.

참고자료:


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다